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深入浅出数据分析 


(S 患理论/数据分析 


本书为你带采哪些知识？ 

我们生活在数据的天 地里， 你的工作就是淋滇尽致地发挥数据的作用•从哪 
里起步？ 《S 人浅出数据 分析》 将为你提供帮助：利用 ExceliOpenOffice 应 
用程序组织数据，在 R 应用程序中进行进一步整理，通过»点图和直方图找 
出有意义的模式，借助启发式算法作出结论，通过实验和假 定簡试 預见未 
来，再以淸楚直观的图形展示分析结果》 

无论你是研究新产品可行性的开发人员.还是评估广告效果的市场营销经 
理，无论你是向客户呈报数据的营销员，还是苷理所有这些数据密集型部门 
及种种其他事务的个人企业家，《深人浅出数据分析》都能为你带来全面的 
学习体验.让你将数据转变为亊业中最有用的工具. 
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本书有 何特别之处？ 

我们认为，您的时间极其宝贵，不该浪费在冥思苦想各种新名词.新觀念 
上，《深人浅出数据 分析》 根据最新认知科学和学习理论，以形成多感官学 
习体验为 目的. 順应大脑的工作方式，设计丰富的图形图表.你将不再被密 
密麻麻的文字催得昏昏欲睡《 
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~ 是时候写一本通俗易懂. 
内容全面的数据分析知识指 
南了. 好让学习概念变得既 
简单又有趣槪念对理论有 
用.对实践更有用 ，“ 

- Anthony Rose , 

Support Analytics 
公 H 总級 

-《深入浅出数据分析》告 
诉我们如何发现和解密数据 
在曰常生活中的作用.以及 
系统化的数据分析对制定决 
策多么有用- 

- Eric Heilman. 

於 M 备学抆 
统计学教邮 


~被堆积如山的数据压得喁 
不过 气了？ 在办公工具里添 
上数据分析技术吧，抢占技 
术先机.将原始数据转化为 
真正的知 识，" 

Bill Mieielski, 

软仲 I ；箱师 
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内容简介 

《深人浅出数据分析> 以类似••章回小说”的活泼形式，生动地向读者展现优秀的败据分析人员应知应会的 技术： 
数据分析基本步骤、实验方法、最优化方法、観设检方法、贝叶斯统计方法、主观概率法、启发法、直方田法、回归 
法、误差处理、相关数据库、数据整理技巧；正文以后，意犹未尽地以三篇附录介绍数据分析十大要务、 R 工具及 
ToolPak 工具，在充分展现目标知识以外.为读者搭建了走向深人研究的桥梁。 

本书构思跌宕起伏，行文纱趣横生.无论读者是职场老手，还是业界 新人； 无论是字斟句酌，还是信手黼阅，都 
能跟着文宇在取场中走上几回，体味数据分析領域的乐趣与挑战， 

978-0-596 -1 5393-9 Head Finit Date Analjrsu O 2009 by O'Reilly Media, Inc. Simplified Chinese edition, jointly published by 
O'Reilly Media ,Inc. and Publishing House of Electronics Industry, 20I0.Authonzed (ranslalion of the Engliih edition, 2009 O'Reilly 
Media, Inc., the owner of all rights lo publish and sell th« ftame.AU rights reserved including (hr rights of icproduction in whole or in 
part in any form. 

本书中文简体版专有出版权由 O’RriUy Medi^ Inc. 橙予电子工*出板社，未经许可，不得以任何方式复制或抄袭本 
书的任何部分。 


版权贸»合同》记号 图字： 01-2009-6690 

图书在版编目 （CIP1 数据 

深人浅出数据分析/ 米尔糠著； 李芳译 .一 北京： 电子工业出版社. 2010.9 
书名應文： Head Finl Data Amlysia 
ISBN 978-7-121-11693-3 

I. ①深… n • ①米…②李… IB. ①统计败据-统计分析（败学> IV. ①02111 





该将此书献给我的祖母 Jane Reese 






目录 

1 

序言 

数据分析 引言： 分解数据 

I 

1 

2 

实验： 检验你的理论 

37 

3 

最 优化： 寻找最大值 

75 

4 

数据图 形化： 图形让你更精明 

111 

5 

假设 检验： 假设并非如此 

139 

6 

贝叶斯 统计：穿越 第一关 

169 

7 

主*«串：信念数字化 

191 

8 

启 发法： 凭人类的天性作分析 

225 

9 

直 方图： 数宇的形状 

2S1 

10 

回归：预籣 

279 

11 

误差： 合理误差 

31S 

12 

相关数 据库： 你能关联吗？ 

359 

13 

«押 数据： 井然有序 

385 

附录 A 

尾声：正文未及的十大要決 

417 

附录 B 

安装 R: 启动 R! 

427 

附录 c 

安装 Excel 分析 工具： ToolPak 

431 



序亩 



大 B 对待数 《 分析的 态度.一边是你努力想学会一些知识， 一 边是你 

的大脑忙着开小差。你的大脑 在想： 

“最好把位置留给更重要的亊， 
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他们知道如何处理所有的数据材料，如何将原始数据转变成推进现实工 
作的妙策，如何分解和构建复杂的问题和数据集，进而牢牢把握工作中 
的各种问题的要害。 
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倌念数字化 

虚拟数据未尝不可， 真的。不过，这些数字必须描述你的心智状态，表 
明你的信念。 主观«串就 是这样_种将严谨融入直觉的简便办法，具体 
做法马上介绍。随着讲解的进行，你将学会如何利 用标准偏差评 估数据 
分布，前面学 过的一 个更强大的分析工具也会再次登台亮相。 
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活动并非以最理性的方式展开，而是利用既不齐全也不确定的信息，凭经验 
进行处理，迅速做出决策。奇就奇在这些好验确实能够赛效，因此也是进行 
数据分析的重要而必要的工具。 
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误差 

合理误差 

世界错综复杂。 预澜有失精准并不稀奇。 不过， 如果在进行预测的时候 
指 出误差范围， 你和你的客户就不仅能知道平均预测值，还能知道该误 
差造成的典型偏差，指出误差可以让预测和信念更全面。通过本章讲授 
的工具，你还会懂得如何控制误差及如何尽量降低误差，从而提高预测 
可信度。 
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你只解决了郎分问 M 


扭曲的加蘄结 果数据 看起来是什么样子？ 

机会误差=实际结*与摸型结果之间的偏差 



误差对你和客户》有好处 

机会误差访谈 

定暈地指定误差 

用均方根误差定 ■： 表示残差分布 

R 模型知道存在均方根误差 

R 的线性摸®汇总展示了均方根误差 

分割的根本目的是苷理误差 

优秀的回妇分析兼具解释功 能和® 测功能 

相比原来的模型，分区模型能吏地处理误差 

你的客户纷纷回头 


316 

317 

318 

321 

322 

327 

328 

329 

330 

334 

335 

336 

337 

338 
340 
346 
350 
352 
357 


xxll 
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兵系数提库 

你能关联吗？ 

如何组织变化多纗的多变置数据？ 一张 电子数据表只有两维 数据： 行和 
列。如果你的数据包括许多方面，则表格格式很快就会过时。在本章， 
你会看出电子表格很难管理多变置数据，还能看到关系数据库管理系统 
让多变量数据的存储和检索变得极其简单。 


《数据 邦新闻希望分析销董 360 

这是他们保存的运营路踪数据 361 

你需要知道数据表之间的相互关系 362 

数据库就是一系列相互有特定关系的数据 365 

找到一条 R 穿各种关系的路线，以便进行必要的比较 366 

创珑一份穿过这条路径的电子表格 366 

通过汇总将文章数目和铕最关联起来 37! 

看来你的 敗点图 «实_得很好 374 

复制并粘貼所有这些数据是件痛苦的事 375 

用关系败据库管理关系 376 

«数据邦新闻》利用你的关系 图途立 了一个 RDBMS 377 

«数据邦新闻》用 SQL 提取数据 379 

RDBMS 数据可以进行无穷无尽的比较 382 

你上了封面 383 
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整理数椐 

井然有序 

乱糟糟的数据毫无 用处。许多数据搜集者需要花大置时间轚理数据。不 
整齐的数据无法进行分割、无法套用公式，甚至无法阅读，被人们视而 
不见也是常亊，对不对？其实，你可以做得更好。只要眼前清楚地浮现 
出希望看到的数据外观，再用上一些文本处理工具，就能抽丝 W 茧地整 
理数据，化腐朽为神奇。 



刚从停业的竞争对手那儿搞到一份客户名单 
数据分析不可告人的秘密 

Head First 播头公司想为自己的销售团队搞到这份名单 
淸理混乱数据的根本在于准备 
一旦组织好败据，躭能数据 
将#号作为分隔符 

Excel 通过分隔符将败据分成多个列 
用 SUBSTITUTE 替換 - A ” 字符 
所有的••姓 - 都整理好了 
用 SUBSTITUTE 替換名字模式太 麻烦厂 
用嵌套文本公式处理复杂的摸式 
R 能用正則表达式处理复杂的败据樓式 
用 sub 指令螫理•名 • 

现在可以向客户交货了 
可能尚未大功告成 …… 

为数据 排序.让重复 数值集中出现 
这些数据有可能来源干某个关系数据库 
，除重复名字 

你01建了美观.整洁.具有唯一性的记录 
Head First 猎头公司正在一网打尽各种人才 | 

再见 …… 


386 

387 

388 

392 

393 

394 

395 

399 

400 

402 

403 

404 

406 

407 

408 

409 


414 

415 

416 








附录 A 尾声 

正文未及的十大要诀 

你已顏有收获。但数据分析这门技术不断变迁，学之不尽。由于本书篇幅有 
限，尚有一些密切相关的知识未予介绍，我们将在本附录中浏览十大知识点。 


其一：统计知识大全 418 

其二， Excel 技巧 419 

其三： 耶鲁大学教授 Edward Tufte (爱 徳华•塔 夫特） 的图形原則 420 
其四： 数据透视表 421 

其五 I R 社区 422 

其六： 非线性与多元回归 423 

其七： 原假设-备择假设检验 424 

其八：随机性 424 

其九： Google Docs 425 

其十：你的专业技能 426 



入洩出數据今祈> 
来提&*钝计知识 


_机变蠢 


早均》 

•拿 童方® 
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附录 C 安装 E ? cce 【分析工異 


M M M ToolPak 
# • # Excel 有-些•好的功能在 


拒在 K 认情况下并不安装。为了执行第3章的优化和第 

9章的直方图，需要激活 Solver ^ OAnalysisToolPak , Excel 在默认情况下安 
装了这两种扩展插件，但若非用户主动搡作，这些插件不会被激活。 


在 Excel 中安装数据分析工具 











1 数椐分祈引 t 


命 



数据无处不在。 


如今，不管是不是自称数据分析师，人人都得处理堆积如山的数据。熟谙 
一切 数据分析技术方法的分析者会比其他人技高一筹他们知道如何处理所有 
的数据材料，如何将原始数据转变成推进现实工作的妙策，如何分解和构建复 
杂的问题和数据集，进而牢牢把握工作中的各种问题的要害。 



销量下* 

Acwe 化妆品公司熏要你出力 

这是你走上数据分析师岗位的第一天， 

刚刚收到了首席执行官发来的销售数据，甫 
要査阅一下。数据反映了 Acme 公司旗親产 
品——脫洁超强保湿*的销售 情况。 


ii 去:？••个薦的鹌 * 省鳞*嚷化？ 


这*个《的*际总销孴与 
S 标患销售*相比&何7 



9月 

10月 

11月 

«月 

1月 

2月 

总镶置 

目《«置 

$5 280 000 

$5 501 000 

$5 469 000 

SS 480 000 

SS 533 000 

$S SS4 000 

$5 280 000 

$5 500 000 

$5 729 000 

$5 968 000 

S6 217 000 

$6 476 000 








广吿费 

S1 056 000 

$950 400 

$739 200 

$528 000 

$316 800 

$316 800 

社会 H 格费 

V 

$0 

S105 600 

$316 800 

$528000 

$739 200 

$739 200 







麟价 （镰耋 ■)> \| 

$2.00 

$2.00 

$2.00 

$1.90 

$1.90 

$1.90 


4 jfcAm •的丹 
i* 禕了码7 - 




俅覺得这*草价嗜杆么 
袁化7 Jb# 么下蜱 7? 


看看这些数据.不必抽丝剥茧一只 
要放慢速度就行。 

看出什么了吗？表格让你对 Acme 的 
业务了解了多少？对 Acme 的肤洁超强保 
湿霜了解了多少？ 


m 秀的数棍分析师总覜 
看到数棍。 


2 深入浅出数据分析 




数据分析引官 


酋席飧 行官希望数椐分析师 
帮他挠高锁1 

他 希望你 “帮他分析分析"。 

这要求很含糊.不是吗？听起来挺简单，可你 
的工作会那么蹰吗？不错，他希望提髙销 ft, 不错， 
他认为这些数据中有些东西能 W 助实现这个 B 标， 
可到底是哪些东西呢？怎么帮呢？ 



数椐分析就是仔细推茲证椐 


数据分析这个词涵盖大量形形色色的工作和大 
量形形色色的技巧 • 就算有人明白告诉你地是数据 


你可 

ZxctL 


分析师，你依然无法确定地的 专长。 


* 会打鲭说 * Mf 

. « 飫此* 已/ 


但是，所有优秀的分析师，无论专长及自标如 
何，都会在工作过程中按順序执行下面这个固定基 
本流程，同时通过经验数据来仔细推敲各种问埋。 


定问*. 

V 

I 败 I -- I 分解 1 — 

(: 

皺*今祈患的來说 ft A 
今鱗问*和獻波其 
成糸農小«组成#今. 


# 一多 Jt 了鱗冏《. 



这；#是今析太餐.你在这一步对在 
«*歩 了鱗利 *6 饞况各种结论. 



I I - - I 嫌 1 



最后.你杷这 姿秸论 f 斯 ft 合在 
一起•作 * (建 《> —个 块策. 


在本书 的毎一 章中.你会-次又-次地 
按顺序执行这些步骤，很快.这些步*就会 
完全成为你的第二本能. 

所有的数据分析师 敢终都 会被打造成能 
作出更好决策的人才，你要学的就是在浩如 
烟海的数据中洞察先机.作出更好决策。 



碥定问涯 

未明确确定自己的问題或 Hfe 就进行数 
据分析躭如同未定下目的地就上路旅行一样 • 
当然，您可能会碰到一些有意思的现象 • 
有时还可能盼着能兜来兜去地憧上点好东西, 

但是，谁会说你将有所发现？ 


这4 -传 #箧的今析#杏.看虫相《之处了 


见过长达百万页.图表不计其败的 
分析柑 告吗？ 

偶尔，分析师的确会需要几百张纸 
或一小时的幻灯片来阐述一个*点，但 
如此一来，分析师常常不够注重 Li 要 
解决的 HM , 他们抛给别人一些信 
惜此推卸 A d 解决问■和建议决策的义 
务。 

有时情况® 槽糕： 问 K 根本没有确 
定下来，而且分析师不想让別人意识到 
他只是在数据中兜 M 子. 



你卯捆确定 问题？ 


第1章 数据分 析引言分解数据 



你的目标 



客户是分析结果的服务 对象* 你的客户 
可能是你的上司.你所在公司的首席执行官, 
或甚至就是你本人， 

客户将根据你的分析作决策，你需要尽 
* 从他那里多了解一些信息. t 能碥定问*。 

本文中这位首席执行官想提高销 ft . 但 
这只是最初答案，你需要吏多 电确切 地携请 
他的心思.才能拟定一个能够解决问 B 的分 
析方案. 


凡亜占 



你的客户可能： 

相当了解或不甚了解 

■ 相当了解或不甚了解自 

自己的业务 

己的数据 

目标明碥或优柔專断 

■ 相当了解或不甚了解自 

头脑清醒或稀里糊涂 

己 的问題 或目标 

富有直觉或善于分析 

_ 

( 

\ 对 £ 由彳縊 鉍 


它们代条你阱处的各个今祈价 



I 败 1 -- I 分解 I -- I 评估 \ -- I 决* \ 


6 深入浅出》据分析 



数据分 析引亩 


世傻问越 


| o ) :我总是在数据里兜来兜去。您是说我得先在脑 
子里有些特定的目标，才能哪怕只是过一眼我的数据 7 

^: 没必要先在脑子 i 形成问* 才去測 覓教据但 
要记住，仅仅过一篆并不是數据分析教据分析总的来 
说就是认清问*,以及*而解决问*。 

( o ) : 我听说过探索性数据分析，就是从数据中找出一 
些可能 想进一 步进行评估的点子。这种数据分析方法中 
并没有什么"问 H 确定”步 

^: 确实有这种分析方法_在探索性 教杨分 析中， 
问*就是要找到一些值得进行《试的假设条件，这完全 
是个具体问《 

( o ) : 很好。给我多讲讲对自己的问 B 不*了解的客 
户吧。那种人也需要数据分析师吗7 


答：当然！ 

|»):听起来似乎那种人更需要专业帮助。 

^ : 的磯如此，优秀的教据分析师帮助客户思考自 
己的 问题； 他们不会等着客户告诉他们该做什么」要是 
有人鹿够向客 户相出 他们毫无察*的问*,客户会真心 
诚意地感谢此人 .， 

( o ) : 听起来挺傻。谁想多搞出些问 

^: 聘用教据分析柙的人认为，具备分析技能的人 

能移改善他们的止务_有*人把问 超视为 机会，而向客 
户指出 如舛发 现机会的教据分析师則能让客户赢得竞争 
优势,， 


- 々嗦％ 

o . 

o . 

o . 

o . 

o . 


总体问題是我们需要提*销置。为了更好地摸清这位酋席执 
行官的具正意田，你想问这位首席 执行言 什么问 H 呢 15 写出 
5个 问題。 


第1輋數据分析弓 K 分解數据 7 














挖问趣和数梅分解 
为 E 小的组块 

数据分析的 T 一步就是把从客户那里了 
解到的问題和手头的数据放在一起，把这些 
问睡分解为顆粒级的小 问題， 让它们在分析 
时发挥最大作用. 

I 分解 1 —- I 种 ― I 找 \ 


将犬问埋划分为小 闲® 


你滿要将问埋划分为可管理.可解决的组块.你面对 


的问题常常含糊不清. 例如： 

“我们 mia 提_销議？ 

你无法直接回答大问隳，但是，通过回答从大问题分 
解出来的小 H 埋，你就可以找到大问 B 的答案. 


< ~«扒》1/的*1 | 祐屮》扪织1|11们丨|7、？” 
-产 IW 5 R ? ” 
•*»« 的 f f ?" 

r 

V - - - ft . 鱗决太 iSJ * 



将数 掩分藓为更小的组块 


数据的处理也是如此，人们无意告诉你你 
所需要的精确答案的量化值，你必须自己提炼 
重要的因子。 


如果你拿到的是两始数据表，你就会想对这 
些因子进行汇总，让数据更有用. 


葙后会细鱗#这 
姿时髦行格！ 


让我们》分解工作来个特写 • 


如采你拿到的是汇总情况.就像 Acme 给你 
的那些数据，你躭会想知进哪些因子对你至关 
® 要。 , 


这 娄可*就是你 
看 块. 






现在爯采着着？蘇到的情況 


«到_兴 HI 的 tt ® 对锿，分 
解汇总数棍。 


让我们从数据开始。你手头有一份 Acme 
销售数据汇总.尝试分解最重要因子的最好 
起步办法是找出髙效的比较因子. 


»用传的总 鹌量与 传 (6 总鵪孴相比办何 7 



在这个粜例中，您想通过比较各项汇总 
数据在脑子里形成一个概念.即 Acme 公司的 
说洁超强保湿霜业务是如何开展的。 




数据分析引宮 





第1意數据分析引言分解》据 11 












分析客户 



12 深入浅出数据分析 

















评估组块 

好戏上场了。你知道需要想办法.你知道 
哪些数据组块能让你做到这一点 • 现在.仔细. 
专注地看看这些组块，形成自己的判断. 


I 败 I 


► I fftt I — ► I 决策 1 


正如分解时一样.评估分解组块的关键躭 
是比较。 


通过对这些因子进行相互比较，你看出了 
什么？ 


针对问18的观察结果 

貌洁超强保湿霜的消费者是处于豆 S 年华的 
少女消费者 （ 具体是 11-15 岁1。她们基本 
上是睢一的消费群体。 

Acme 正在尝试增加用于扩展社会网络的广告 



柚家 A 个 (S 嚎. 体攻吒诮 • 

你看*#么 

针对数据的观察结果 

2月份的销最与上年9月份的销置相比 
■8 有上升，但尚厲持平。 

销置与目标相去甚远。 



费，但迄今为止，新做法是否成功尚未可知。 


#来降价无助于销置达标。 


我们看出产品在少女消费群体中的销售潜力 
是无限的。 


Acme 的竞争者极为危险。 


削减费用可能会影响 Acme 的销最达标 
能力。 


想象一下I 


你几乎拥有所有合适的组块，唯独缺 
少 ■■的一块…… 




分析从你开始 


分析从你介入的邡一刻孖飽 

让自己介入分析的意思是作出自己的明碗假设. 
并且以自己的倌用为自己的结论打赌。 

无论你正在构途复 杂的模 型还是在作简单的决 
策，数据分析就是你的 一切： 你的信念.你的判断. 
你的信用. 


取人 ilA 



在撰写最终报告的时候，一定要提到你自己，这 
样客户才知道你的结论出自何处. 

I航 1-- I 分解 1 - 


户•要你在今祈+确白地雇 



| 评诂 | — ► | 决策 | 


14 深入 浅出数 循分析 







数据分析引宮 


桡出建议 

作为数据分析师，你的工作就是让自己和客 
户仔细研究你对数据的评估，洞察先机，从而有 
能力作出更好的决策。 


I 航 \ -- I 分解 I 


为了实现这个百的，你必须将自己的设想 
和判断以合适的格式整合起来，供客户拮取 • 
也就是说，你的作品要能简单刖简单，但不 
可简单过头！你的工作足磽保自己的意见传达 
到位， It 人们根据你的意见作出正确的决策。 



供块策. 4- W . 
兮析将 t 无用处. 


你提交拚客户的报告 II 以得到客户理解.鼓励窖户以数 
籌为基 AH 作出明智的决策为霣点。 


动笔 


看看你在前面几页搜集到的倌患。 
你建议 Acme 如何提离销量？为什么？ 











报告写好了 


这4 我们一科祐 

从 曹雇扰行官押 
璽材斜. 



这是你的今 
祈太餐. 



你的 結论可 
攄与 此禾 (81. 


Acme 化妆品公司 
分析报告 

背最 

税洁超强保湿霜的客户是少女消费者（具体是 1IH5 岁） .她 
们基本上是唯一的客户鮮. Acme 正在尝«增加用于扩展社会 
网络的广告费，但迄今为止，这个新做法是否成功尚未可知， 
我们看出产品在少女消费者中的销售潜力巨大， Acme 的竞争 
对手极为危险. 

数据解说 

2月份的销董与上年9月份 
相比略有增长，但仍厲持 
平，销1与目标相去 甚远， 

削威广告费用可能会影响 
Acme 的销售达标能力.降 
价看来无助干销量达标. 

建议 

销置相对目标下降可能与广告费相对从前的广告费下降有关， 
没有宂 分的证据让我们相信社会网辂建设已如我们所®取得 
成功.我将把广告费重新 调整到 9月的水平，看看少女消费者 
是否有 反应。 针对少女消费者做广告是让总销售額重新达到 
销售目标的手段。 



在*告中宠下由己和害户 
始*议是个不错46办这. 



用«蕈《«形鱗 

说由己的 锫论. 



ft 席拽行官会怎 



1 I 





酋席 飧行官欣赏你的工作 



你的® 议将给 Acme 的业务带来哪 
些影响？ 


Acme 的消上升 K ? 


一则新闻 


/表*上看起象是一 

广 篇正**道. 


数椐#高务时报 


躭洁保湛霜在 
少女滴费者市 
坫完全铯和 


据我报化妆品行业独立分 
析师报告，少女消费者保 
湿霜布场已经完全被 Acme 
公司保 湿霜旗 親产品 -K 
洁- 占据，据《败据邦商 
务时报》 调査， 95%的少 
女消费者称•非 常頻 ar 
使用税洁保涅 J6. 通常毎 
天两次以上， 


当我报记者告诉 Acme 首席 
执行官这个调査结*时. 
他非常惊讶，■•我们承诺以 


平易近人的价格给少女消竞争是在浪费赀销费用。 


费者 最奢华 的保®体验”，菩萨保佑，给说洁来个打 
他说.■•得知 K 洁在少女消击，比如，让他们的代言 
费者中如此走红我很*兴，人在镜头里被逮到…… 

希9以后由我们的败据分 
析部门吿诉我这些消息. 

而不*报社 ，- 


Acme 在市场上的实际竞争 
对手一竞争化妆品公司 
回应了记者采访：••我们 
基本上已经撤出了少女消 
费者市场。我们*来扰乱 
市场的少女消费者受到了 
朋友们的_笑，因为据说 
使用了 廉价. 低档的产品， 
晚洁品牌太强了，和他们 


这对你螓舍祈 


省*义吗？ 


表面上来这对 Acme 是个好 消息， 但是， 
如果市场已经饱和，再多投广告可能躭不会 
有太大效果。 
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很难想象少女消费者市场广告会有效。要 

是绝大部分少女消费者毎天都用肤洁保涅箱. 
而且用两次以上，销量还有机会提高吗？ 

你需要寻找別的机会提高销 ft. 但首先* 
要搞淸楚你的分析有何差池. 



你在分析过程中得到 了一# 错误的或不宪整的倌患， 
使你对上述有关少女消费者的情况把握不准。是哪 
些信*不完整呢 7 



f 席故行官碥信的难点 
让你误入歧途 


这是首席执行官嘴里的晚洁销售 情况： 


首席 执行官 礴倌的輓洁綱篇情况 

狭洁超强保涅霜的消费者是处于豆蔻年华的少女消费者（具体说是 
11-15 岁）， 地们基本上是唯_-的消费群。 

Acme 试图重新分配广告费和社会网络费，但迄今为止，这个新办法 
是否成功尚未可知. 

我们看出产品在少女消费者中的销售潜力是巨大的， 

Acme 的竞争对手极为危险， 



#看这些确信现点与数据的吻合情况，二者 
一致还是矛盾？所描述的内容有差別吗？ 



9 月 

10月 

11月 

12月 

1 月 

$5 533 000 

_2fl_ 

$5 5S4 000 

总鋼置 

$5 280 000 

$5 501 000 

SS 469 000 

S5 480 000 

鋼置 

$5 280 000 

SS 500 000 

$5 729 000 

$S 968 000 

S6 217 000 

$6 476 000 








广吿费 

SI 056 000 

$950400 

S739 200 

$528 000 

$316 800 

$316 800 

社金，络费 

$0 

$105 600 

$316 800 

S528 000 

$739 200 

S739 200 








麟价（弩 BBI> 

$2.00 

$2.00 

$2.00 

$1.90 

$1.90 

$1.90 


数据没有体现少女消费者市场的任何情况。他假定 

少女消费者是产品的 唯一昀 买者，而&少女消费者有能 
力购 买更多 的貌洁保湿笛_ 


我们夭 7起立！ 


看7上迷拿 i 闻后. 你可*想■•新讲 
- <古畜爲机行官4信物 这姿規 点. 


I 磷定 I 


分解 




一 | | 
















你对外界的假设和你碥信的 
难点就是你的 心智糢型 


在这个案例中，心智模型带来了问 H . 
如果新闻报导是真实的.那么首席执行官 
关于少女消费 者布场 的确信观点就是错误 
的，而这些确信观点正是你用来解释数据的 
模型。 


现实世界非常复杂，因此我 ( TI 用心* 樓 
型来理解现实 • 你的大脑就像 -- 个工具箱. 
只要有新信息进来，大脑就会拿出一个工具 
利用这个新倍 A . 

心智換犁可能进一些与生供来的先天禀 
W . 也可能是后天学会的理论，不管是哪种 
情况.都会大大影响你对数据的解 



, 你 *6 太*是个工 A «. 


心省嫌 S 就先*+姝种种工 A 


户•妻省 •侑惠进來. 

虫一个工具利用这个斯信惠. 


心智模®有时助益良多.有时带来麻烦. 
本书躭是你的妥轉利用心脊 樓型逋 成班. 

«中之®是明确心智掼®,并 a * 对待 

数据•样严黹认真地对待心竹携®. 


另必敁_明确你的肋型。 
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模翌的影嘀 


统计 糢型取决子心智糢型 


心智模型决定你的观察 结果， 是你观察现 
实的棱镜。 



你无法看到一切.因此你的大脑必须做 J \_ 你蚬察洗*#界. 

出选择，以便集中注意力，这 躭是所 《的心 

柙揆取大大决定观察结果。 



你的统计模5?取决于你的心智模型，如 
果用了错误的心智模型.分析躭会胎死《中， 


雇好使用正确的肋智 
囔型！ 


丨 •* I - " I 分解 1 - *■ | 评估 [ - ► | 决策 | 

22 深入浅出»鬍分析 

















动笔- 

、乂 斛箸 你刚才用新眼光观察了汇总数据。不 H 的心智模型该如何与之契合呢？ 



9月 

10月 I 11月 

12月 

1月 

2月 

总鋼置 

SS 280 000 

$5 501 000 

SS 469 000 

$5 480 000 

$5 533 000 

SS 554 000 

sews 

$S 280 000 

S5 500 000 

$5 729 000 

$5 968 000 

$6 217000 

$6476 000 







广眚费 

$1 056 000 

$950400 

$739 200 

$528000 

S316800 

$316 800 


$0 

$105 600 

$316 800 

SS28000 

$739 200 

$739 200 







•价 <«8司1 

$2.00 

$2.00 

S2.00 

$1.90 

S1.90 

$1.90 


o 列出一些假设情况：若被洁保湿霜的磽是少女消费者軎爱的润肤品，则假设成立。 

少女消费者 / L 孕杷斯省保溫翥预其 都烚了 貌洁. 

广 需要丹 的貌洁 係溫霜布场; 提高铂 f . 

这置取統洁保 S 霜没省 is 敌的*争对孚.它是迄今南止 肇崧的 产品. 

#^4.. 

社会网烙是目 前售* 产品*经浒省鈥的方式. 

少女«费者 A * 在係® 霜上龙*多的钱. 



列出一些假设情况.若貌洁保灃霜处于在竞争中失去顾客的危险境地，则假设成立。 

少女消费者改用浙的係 3 L 霜产品.需委寺回夫地. 

貌洁 保涅霜 铍认态•禾够 IT . 是-给儂孑用的 •. 

•f #肤在卑轻人中 a * ci 行. 

社会网络營销4个无 A 阑.祆们需妻 t 极广告的钚抱. 

提*艉洁的价#将损失布场传 《. 



害户拥嗜完金 *« 的心 •臂镇 S 并禾舞 +. 忽絝心•智耩 
S 中唷可妻的蘀今**也是家脅 《 tt …… 


~~- I fffe I 


I _ 定 I 


决策 














心智糢型应当包紿你不 
了解的哆素 


-- 定要指出不磽定因泰.只要能明确不确 
定因素，你就会小心防范并想办法填补知识 
空白，继而提出更好的建议. 


考虑不确定因索及窗点会让 人感觉 不爽，反思这姿会 
但回报这种 •'反 査"方法会掲示出未 *.*■**■ 

知 信息，而不是已知信息， 例如.你要雇用一 I 

个舞 蹈京. 他不会跳的舞可能比会眺的籌更让 \-- 

你感 兴趣。 


人们 tttt 在扇 
后访•他们 — 
鈦禾象. TAW 已 <1. 
数据分 析也蛙 如此， r 解自己的知识缺陷非 
常重要。 

未雨编缪方能防备不瀏风云. 




Head First 反查表 

我所没有的 经历： 

被捕 

吃小龙奸 
骑自行车 

铲雪 

我不知道的 事情： 

H 周率前50位数 

我今天用手机打了多少分钟电话 
生命的意义 

我不知道该怎么做的 事情： 

做法式® ti 

跳恰恰舞 

弹吉他 

我没读过 的书： 

《红楼梦》 

«三《拍案惊奇》 


为了搞清楚首席执行官不 知道的 V 情，你会问哪些问 










酋席狨行官承认 
f 8布所不知 


发 件人： Acme 化妆品公司首席执行官 

收 件人： Head First 

主腰：回复： 管理不磡定因素 

关于 R 洁保灃霜的销售情况，你觉得自己在 W 方面 最缺乏 了解？ 

哦，这是个有意思的问题，我总是觉得我们真正了解客户对 
产品的感受，但由于我们并没有直接把产品卖给消费者，所 
1 以，在将产品发给经销商后，我们碗实不知道接下来的情况。 

| 所以，不错，我们磽实不知道«洁保 a 霜出库后的情况。 

关于广告对提离销量的贡献，你有多少倌心？ 

哦，正如大家一向所说， 一半 有用，一半没用，而且永远也 
1 不知道半是 W —半。 但很明显， R 洁品牌是消费者购买 CV 
' 最多的产品，因为 R 洁与其他保 S 霜产品并无太大差别，所 
以广吿是打响品牌的关键。 

除了少女消费者，还有谁可能会买这些产品？ 

!这我可不知道，亳无线索，因为产品全靠牌子，我们只考虑了# 
. 少女消费者，我们绝不插手其他消费者群体。 

有没有我该知道的其他难以排解的不磽定因素$ 

| 当然有，还不少呢。你吓死我了，我再也不觉得自己对产品了 
如指掌了，你的数据分析让我觉得我对产品的把握所知甚少。 


让«户丹始思 
老. * 禾錯. 



广者鋏票并禾+今硝; 




这是一个 g 丈吣畜点, 

还有*可能买 K * 保*霜？ 

除 i ■少女消费者，有其他 
买家吗？ 


I 分解 I — - 1评估 I 



26 深入浅出》箱分析 




世上设 《 傻问遂 


|o) :首席执行官最后一句话挺搞 
笑： 数据分析让人感觉自己所知甚 
少，这话不对吧？ 

^: 这要看你怎么 对待。 如今越 
来越多 的问超 能够通过數据分析技 
术解决，而在过去，人们要靠直觉 
来解决这盎问超 .. 

1^ :所以和以前相比，心智模型 
越来越不可倌了？ 

^ : 许多由心甘模4!完成的工作 
都是为了#助你填补信息空白.，好 
的一面是，数*分析工具让你有能力 
以系《■而自信的方犬填补这*空白， 
因此， “ 指定大量不磯定因素"这 
一做法的目的就是帮助你发现盲点， 
这要求拥有过硬的教*工 作经玢 


( o ) :但我非得用心智模型来填 
补 ■•对 外界的了解"这项知识的空 
白吗？ 

^:螭实如此…… 

(°): 我这么说是因为，即使我目 
前对外界的运行规律了如 指掌， 但十 
分钟后外界就会变成另外一个样子。 

^: 对极了 你无法无所不知. 

世界总是在不断变化，这就是严谨 
地相定 并管 a 心 智榣® 不磯定 
因素之所以成为工作重点的原因 
你只有释么*时间.释么*资源朱 
解决分析问《,因此，回答上迷问 
超将有助你有效+、有效果地宄成 
工作。 

1°) :通过统计横型了解到的倌患 
軀为心智模型所用吗？ 


答: 当然能。今天的研究所发现 
的事实和现象往往成为明天的研究 
的假设情况。这 样想： 你不可避免 
地会从统计模型得出错谋结论，人 
无完人当这*结论成为心智模 
曳 的一部分后.你希望它们突显出 
来，这样才能认明情况，以便在需 
要时田头改变这 种結论 .. 

1»1 :所以心智横型可以通过经验 
进行试验？ 

^ : 对，而且应该进行试验,，你 
无法试验每一件事，但可以试验模 
«中的每一件事。 

1°) :如何改变心*横型， 

你即将了解…… 


_席执行官下罗搞柬了史多籾馄， 
帮助你寻找少 Q 消费 gw 外的市 
K 。 让我们看一看。 
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Acwe 给你龙采了一长串辱始数掩 












































深入控掘数椐 

要看的数据很多，但任务很 明确： 
找出除少女消费者以外购买产品的群体。 

你发现了一家名叫泛美批发公司的 
公司，它是谁？谁买它的产品？ 


女友化妆 
品公司 





泛美批发公司 






泛美批发公司应 Acme 的要求发来了这份貌洁客户明细*。这些倌息能帮助你弄清楚谁 
在购买产品吗？ 


*下从这*歙*+着虫的 

的某貌《係®霜吣氓费者 


泛美批发公司《»保邐II半年*篇《钃（至2009年2月） 


经销商 

件》 

% 

戚 a 胡須保葬公用 

9 785 

23% 

四幘子 M^A 公司 

8 093 

19% 

男用化公司 

5311 

12% 




总计 

43 289 

100% 


第1袁数据分 析引亩 分解數据 31 











泛美批发公司的销售明细告诉你是谁在购买貌洁保湿霜了吗？ 


泛美》发公司 K 活保通霜半年禳篇明钃（至2009年2月> 


经 《n 

件 R 

% 

戚 s 胡須保奔公司 

9 785 

23% 

Haohan.com 

20100 

46% 

四糢子 M»A 公司 

8 093 

19% 

男用化妆 a 公 fli 

5 311 

12% 




总计 

43 289 

100% 


看来是男八在奚親■洁係湿 
雇束妗销售表没嘀農 
示出是男人在襄係涅霜. 住泛 
基秕皮公司却将貌洁係淇霜鈐 
索 给了刹 领品烃 销*/ 


泫奚粃省公 §) 碥汄？你的印象 


这恐怕是大买 S 。 


屙来， 有一个群体在买晚洁保湿《,而 Acme 
免还没有童识到。 

一 切顺利的话，就犇这个潜在群体提高 Acme 
的销置了。 







数据分 析引亩 
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V 


§6 动笔 _ 




你如何扼要复述你的工作？你对首席执行官提出了哪些建议 
以期提高销最$ 


一 A ■抬.我试«想办注提翕少女« 贵者布 场蜣销耆. （ S & 我们相侑这 喽汸费 老是被■洁保 
湿翥《策一的害户》.去我们； i ； 酰少 女消赍 者布场己经炮和后.我深入挖振麩掂.寻找提 
高 销看的嫌泉. 在这个过 報中. 我玫重了心智旗 4 !. 结票彖明热哀子使用貌洁的人比我 
们意识刊的要多——尤其是上了卑记的男人.由子 这个消 费解#禾宣扬自己对产品的热 
東.我建钗大楢度增加对这个娜钵的广告宣俜.用更备破男蚀摟受的特色销售间样的产 
品.这将提高銷看. 


傻问趣 


1»):如果为了解 决问題而需要获得更 洋细的 值患， 
我该做到什么程 度呢？ ft 不* 要亲自 去采访 客户？ 

^: 对新数*的挖掘深度最终取决于你自己的最佳 
判断，在这个例子中，你不澌摸索.终于找到了新的巿 
场领城，这个发现足以让你制定有说*力的销售策蝽 
我们将在后績幸节中进一步讨论何时该停止搜集教据. 

|o) : #来，起初的错误心智模型是第 一次分 析失败 
的罪魁祸首。 

^: 是啊，最初的锊*假设注定了分析会得 出饍谋 
的答案，因此，从_开始就务必要基于正磯的饭设建立 
棋型显得如此重要，并且，要做好准备，一旦所得到的 
数据有违你的假设，就要立即田头重新详加忍考。 


(°):分析会有大结 甩吗？ 我所追求的*定论。 

^: 教 振分析 肯定会得出玄大问*的答案.但绝不 
会料事如神.即使你今天无所不知，明天又会有新情况。 
向年长男子 促鏔的 建议可能在今天是有效的，但 Acme 永 
迖需要分析柙为他们出点子抓销售 

|o) :听起来挺没劲。 

^: 烚好相反！分析师好比侦探，总有一*秘密等 

着他们去发现，这正是教*分析的乐趣所在！ 回顾 M*. 
提炼模《、基于新棋型規■察外界，这娑都是分析师工作 
的基本组成部分，并非特例，而是规律： 


I 般 I 


I 分解 I 


1 评估 \ 













数据分析引亩 


回颜你的工作 


下面最后看一眼你所经历的所有步骤， 
目的是得出如何帮助 Acme 提髙抜洁保 涅霜销 
置的结论。 


你收到首席 it 行官 
<6论点扣 ft «. 




*1 孚** 资科汇患 
南嗜用 <6辂式. 



你援出 提*对少女携费 
老审砀的广告力度.这 
可《項助子搞耆因針 • 
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36 深入浅出數据分析 






咖啡让的寒冬到？ 


时局艰难，连里巴仕咖啡店也在经历剧 
痛，那可一向是享受极品 咖啡的去处。 然而， 
在过去几个月里.实际销量与目标销 败背道 


而驰，骤然下滑》 



f 巴仕咖 ■# 居 
权行官 


星巴仕首席执行官打电话把你叫来.让 
你帮忙想办法恢复销最。 


38 深入浅出數嫕分析 



实验 













随机调査 



^解著 


进行一 次客户调査，弄清楚客户的想法。 


40 深入 浅出數 据分析 













实验 


星 ett 调 t 表 


这就是击场调 査表： 击场部毎月对大量 
客户进行抽样 调査。 


办票你 是堊巴 仕的害户. 
#可《唷人会遂给你一 



瞿巴仕 调査表 

感谢您填写星巴仕调査表！填完后.我们的*户经理将很乐意为您呈上 | 

份 价值10美元的礼券，您》1以在任何 


光临星巴仕！ 

HBfl 2009年 1 月 

虽巴仕咖啡店编号 ° 4524 

从1到5中■出毎种说法绝你的感觉. 1表示完全不 m 意. 

5表示宪全同意 

••星巴仕咖啡店的选址对我很方便 . ” 

1 2 3 

4 


"端上来的_啡总是冷热合 适。" 

1 2 3 


5 

••星巴仕员工彬彬有扎.咖啡上得很快 . _ 

1 2 3 

4 


••我认为星巴仕_啡作常值 

1 ( T ^ 3 

4 

5 

“星巴仕咖啡店是我偏爱的去处《 - 

1 2 3 

4 
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务必使用 et 餃法 

统计与分析最基本的原理之一就是比较 
法，它指出.数据只有通过相互比较才会有 
* 义。 

在这个案例中，芾场部计算出毎个问题 
的平均答案.然后逐月对这些平均值进行比 
较.毎个月的平均值只有在与其他月份的平 
均值进行比较时才有用， 


说计户.嗜与其他说 
人#未； fe*. 


这是一份2008年下毕年市场调迕汇总表.表中数字是各家分店畚加调査的人对各个调査 
项给出的平均分. 



08年8月 

08年9月 

08年10月 

08年II月 

08年12月 

09年1月 

选址方便 

4.7 

4.6 

4.7 

4.2 

4.8 

4.2 

咖 啡溢度 

4.9 

4.9 

4.7 

4.9 

4.7 

4.9 

MT. 热情 

3.6 

4.1 

4.2 

3.9 

3.5 

4.6 

咖啡价值 

4.3 

3.9 

3_7 

3.5 

3.0 

2.1 

偏爱 Ji 处 

3.9 

4.2 

3-7 

4.3 

4.3 

3.9 




~这个飯掌只嘀与这喹數穹 j 
桕也 ft 彳会嘈用. 



必須进行明碥的比较. 

如果一份统计数据看起来顗有意思.或看 
起来有用.你就需要针对这份统计数据与 
其他统计数据的比较情况.解释为什么会 


有这种作用。 


如果不搞清楚这一点.就等于是在假设客户会自己进行 
这种比较.这会是一个不合格的分析。 











比餃是 磁蘚难察数椐的法宝 


比较越多.分析结果越正确.对于 

观察研究尤其如此，星巴仕研究就是- 
例。 

通过*察数据，你仅仅是在现察人 
们, 并让人们自己决定所 属的群 体。搜 
集观 S 数据往往是通过实验取得 吏有用 
数据的第一步。 


而在实*中.则由俅决定啷 
姿人属 子啷喽 銲体. 




人#可*今糸崧几真.太 

、 審户. 茶害 ♦. 


观察邳究注 

㈣ 子，' 

毳一 


被斯究蜣人自行决定 
属子啷个蘚钵的一种邳究方敁. 




«#对开页上的调査数据，比较几个月内的平均值。 


注意到某种规律了吗？ 


有什么信患能说明销置下降的原因吗9 


第2隶实验检辁你的理论 43 












现在你已经细细看过数据，可以找出数据 a 含的规律了。 


注意到某种规律了吗？ 

徐7 •咖啩价值 ". 斛嘀 的文量 都在嗜限的范«南诚劫. 俐办 •■咖喵遠 度". 豢高得今 


4.9. 最低得今 4 . 7 . ( A 幼不大. 相反. 

_咖螬 价值- 则陣椹 g 太.》2用得今是 8 用 得今蜣 

一$ • 这是一个巨太的重化. 




有什么倌息能说明销置下降的原因吗？ 

这么说吧.也票一教人认浍咖啩螓价值与价格禾相#.他们就 禾虑* 在 I 巴仕多龙钱. 


由子经蛴寒遂.人们孚灰的钱少了.子是他们犮現璺巴 tt 咖喵并无虫色46价值. 


价值感是导致锁售收 
入 " F 滑的原琅码？ 



給出《 


Ft 年*场 W 查 K 总* • «中*字* ft 各家分 W * 加 W * 的人对各个 UK * 项 


纵观这些数据.除了星巴仕咖啡价 
值感这个变董，星巴仕的顆客对其他方 
面都*觉良好. 

看起来，星巴仕没有给人们物超所 
值的感觉.这可能是导致购买*下降的 
原因.也许经济环境让人们钱包变*了， 

于是他们对价格更为敏感. 

让我们把这个理论称为 ■•价 值问题 - 。 

I 你认为感知价值的下降是销■下 

降的原因吗？ 



















fftilM 傻问超 


| o ) :我怎么知道价值下降确实会 
导致咖啡销最下降？ 

^: 你没法知道但目前只有 
感知价值數据与 銷量的 下降相吻合： 
销量和感知价值看起来像是在并肩下 
落，但你无法确定是价值的下降导 
致了销量的下降.目前，这只是理 
论上的判断。 

| o ) :会不会有其他作用因索7可 
能价值问®并不像看上去那么简单。 

^: 几乎可以肯定会有其他因 
索在起作用，使用现察研究方法时， 
应当假定其他因索会龙杂你的結论， 
因为你无法像控制实 tt 那样控制这 


些因索 . 1 . 后面几貰会进一步讨论这 
些行诂。 

(°): 会不会正好相反呢？可能正 
是销置下峰让人们认为咖啡没有什 
么价值。 

^:问得非常好，很有可能正好 
相反.分析拜们的一个很好的经脍 
法則是，当你开始怀疑因果关系的 
走向时 （如 价值感的下降导致销董下 
降）. 请进行反方向忍考 （ 如《量下 
降导致价值感下 降）. 看看蛣果怎 
么样 .， 

(°): 那么我如 何看出 ft 谁导致 
了谁9 


^: 我们将在本书中大董讨论如 
何判定原因，但现在你该知道的是， 
当涉及判定因果关系时.现察研究法 
并不是那么《大有力一般情况下， 
需要使用其他工具才能进行利定。 

|o) :听起来观察研究法没什么 
意思。 

^: 完全不是这么回事！现察数 
据无所不在，要是因为现察研究法 
有不足之处就忽视这种方法，那可 
是*了： 真正重要的是，你要了解 
現察研究法的局限性，这样才不会 
得出错误的結论. 
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一位興型窖户的想法 


粵个人部 爱利: T * 响 



吉嬅： 别把 SoHo 区星巴仕放在心上。那些家伙不知道 
怎么看数据，数据是不 会撤说 的。 

莠 兰克： 我可不®这么快下结论，有时候一线人员的 
直觉比统 H •数据更能说明问 


r 



乔：完全正磽.其实.我正想丢开所有的数据，有些 
东西看起来很 -T 疑. 

吉姆： 你有什么特别的理由认为这苎数据有 
问題？ 

乔：我没理由.味道可疑？ 

典兰克： ff, 我们黹*回头看看我们对 
典®客户或一 ft 客户的释义， 

乔： W, 这儿，我 ii 广-张 ffl. 

弃兰克： 这…连 串的亊怙没有发生在 SoHoK 
居民的身上，有什么 W 因吗？ 

吉坷能 SoHoLx: 的居民没受到经济坏境的打击. 

住那儿的人宫得 H 油，还自私自利， 

乔： 》R. 我女朋友住在 SoHo 区， 

弗兰克：搞不懂你怎么说动这 等风* 人物和你约会的. 
吉姆.你<能说对了.要是冇人理财能力强的话，可 
能 tt 不那么容 tt 相信被巴仕缺乏价值， 



看起珉， SoHog 堊 Ett 


薑巴仕 _：■下隱 



把斛想到蜣亭物 之闵物 

胲系®出来.这一向是 


人们曲反右邊& 
7这个锫*. 


店的_含 nl 能釉 M 他室 
Ptt 店的_宮 不一 >¥• 




碓察分析法充满湛杂哆素 


混杂因索就是研究对象的个人差异，它 
们不是你试图进行比较的因素.最终会导致分 
析结果的敏感度变差。 

在这个案例中，你对不同时间段内的星 
巴仕顾客进行相互比较，星巴仕的客户 a 然互 
不相同一因为他们是不同 的人。 

但是，如果他们的相互差异表埂在你力 
求了解的某个变 * 方面，这种笔#躭&混杂 
因索，本例中的混杂因素是店址。 



这是顧害 . 、 

mmmmmm 
mmmnmm 
mmmmmm 
mmmmmm 
mmmmmm 
mmmmmm 
????!!!!?!!!??!!!? 
!冊？ 冊! !? 而？ 


.^ 这鹌®害;其 俥籲窖 禾一#.这 
种禾一#在攪轧我们的4、斩锫*. 




重新绘制对开页中的因果田，将 SoHo 店和其他店分开，校正 

选址 S 杂 H 素 


S 定 SoHo 区区域经理是正确的，即 SoHo 区顾客并没有感受 
到价值问匾。 那么这种现象对销■有何影响呢？ 



店址玎能对分析结 
果布哪些影响 


这是-张经 过重新 整理的图形， 
图中表现了可能会发生的亊情。用这 
样的 ffl 来形象地表示你的理论，的确 
非常棒，能让你自己和你的客户顺着 
.你的思路去想。 



*] 了粵一个人. 


经济褒退 


从这萱可. .UikSoHo 
区旁肩的害户精况. 


* 4 #^. 
螂个庫 ( S 导致1 
嘩个秸系. 




怎样 处理一 下数据才能看出是否 SoHo 区星巴仕分店 
的价值感仍然良好$更概括地说，怎样处理 一下观 
察研究数据才能让混杂因素得到控制？ 










世±进《 傻问遜 


r ^) :在这个案例中，的确是客户的财富而不是咖啡 
店的店址影响了分析结果吗？ 

^:当然.而且这二者很可能有关系 ：如果 你能得 
到每位顧客有多少钱的教据，或者能知道每位《客花多 
少钱会感到舒坦，你就能再次进行分析，看出以财富为 
基础划分群纽会得出什么结果：但由于我们无法 得列这 
娄信息，就只好使用店址：此外，由于我们的理论是越 
富有的人越愿意在 SoHo 区 消费， 因此店址能说明《题， 

:除了店址，有没有别的变置可能混杂这些数据7 

^ : 肯定有 a 杂因素是现察研宄法 繞不开 的问* 
作为分析师，你的工作就是不断考虑31•杂因素对分析结 
果的影响，如果你认为31■杂因素的影响微不足道，很 
好； 但如果有理由相信这* iJt 杂因素正在发问题，坏 
么，你就需要相应调整自己的結论 

|»):如果混杂因素难以发现怎么办？ 

^: 这正是问*所在.洮杂因索通常不会故意在你 
眼前晃悠为了让自己的教据尽量有说服力，你*要自 
己动手把这些隐藏的泜杂因索挖出来。在本例中，我们 
很幸运，因为地址这个 龙杂因 素其实就在教 据里， 因此 
我们可以处理和管理这个教据通常我们无法得到 a 杂 
因素信息，这会严瓮动摇整个分析的根基，让你无法得 
到正确结论， 


1°) :我要做到什么程度才算查清了混杂因素？ 

^: 这与其说是科学，莫如说是 艺术。 你不妨就自 
己正在研究 的问超 问自己一些常识性问*,倩此想象哪 
呰变量 可能会影响你的分析蛄果-正如教据分析和统计 
学中的各种手段一样.无论你的量化技术多么出神入化， 
真正的重点却永远 在于： 分析结论要有意义，只要结论 
有意义，而且你已经彻头彻尾地查找过■杂因素，那么 
你就已经做了观察研究法要求你 做的一 切工作。其他类 
«的分析，如后文所述，可以让你做出更大肚的蛣论 

1°) :如果我研究的不是价值感而是其他对象，同样 
对于这些数据，店址*否不会成为混杂因素7 

^ : 完全正确记住.只是在这个例子中，店址才 
是一个洮杂因索，伍在其他例子中可能并没有作用.例 
如，在这里我们没有 a 由相信••咖 啡瀵度 让人感觉恰恰 
好" 这个因素在每个地方都不一样 

| o ) :我仍然觉得观察研究法有很多很严貫的问题。 

^ : 现察分析法是有很大局限性，，这种特别的研究 
方法的作用在于 蒂助你 更好地了解星巴仕的客户，只要 
你控«好教搞中的店址问*.研 Jt 就会更有说服力. 
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潺杂因 素分组 


柝分数椐 M , 管理湛 杂锣素 


为了控制观察研究混杂因素，有时候，将数据 
拆分为更小的数据块是个好想法* 

这些小数据块更具同质性。换句话说，这些小 
数据块不包含那些有可能扭曲你的分析结果及让你 始& 

产生错误想法的内部偏差. N 

现在再来看看星巴仕 的调査 败据，这一次将其 
他地区的数据列在相应的表格里. 


星巴仕《嘛|£ : 所有分 e 

到2009年 I 月为止的市场调査汇总，表中数 字鼉在 各家分店参加 W * 的人对各个 W 奎項 
綸出的平均分. 



08年8月 

08年9月 

10* 年10月 

08年 M 月 

08年12月 

09年1月 

选 址方便 

4.7 

4.6 



4.8 

4.2 

咖啡 a 度 

4.9 

4.9 

4.7 

4.9 

4.7 

4.9 

MI ： 热情 

3.6 

4.1 

4-2 

3.9 

3.5 

4.6 

咖啡价 W 

4.3 

3.9 

3.7 

3.5 

3.0 

2.1 

«爱*处 

3.9 

4.2 

__11 

4.3 

4.3 

3.9 
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请看对开页的分组数据。 


东岸区分店平均得分和星巴仕所有分店平均得分有何差异？ 


将所有数据组的 咖啡® 知价值相互之间比较，情况如何 7 


SoHo 区区域经理■•客户对星巴仕 咖啡® 觉很好 • 的判断 IE 碗吗？ 


第2 意 实验检验你的理论 



























惰況比预料 的更糟 r 

为了解决你们所发现的问 a •大 
人物们都行动起来了。 



首席 w 务： 情况比我 们預料 的还褙糕.槽透 ！"• 除了 
SoHoK. 各个区的价值*都 tl 经彻底跌穿地板. 

董铜 則总： 没错.第一张表体现了所有 li 的数据，确实 
让价值*看上去比实际的要好. SoHo 区把数据向好的 
方向扭曲了， 

首* 财务： 只要把人人都是富翁的 SoHo 区剥*出来， 
就可以看出 SoHo 区的藕客都对价格很满息，但其他 W 
客却都在徘捆中甩手 离去。 


营钢 副总： 听以我们要搞淸楚该怎么办， 


首席 W 务： 我来告诉你该怎么办一大减价. 

营销 副总： 什么？ ！ ？ 

菌席 W 务： 你没听错，我们得大减价.这样人们躭会觉 
得价值 不铕了《 

营铜 則总： 我不知进你 ft 从 明个® 球来的. m 我们得考 
虑品牌. 

茴席 W 务： 我来自商业姑球. 我们把 这叫做供与求，你 
大 W 想回学校重»这些词的意思吧. 减价， 然后需求上 
升. 

营销 副总： 要 &削减成本，短期内我们可能会 ft 到销最 
回升，但会永远损失利润.我{门甫要想办法在价格不变 
的情况下说服人们：星巴仕有价值。 


菌席 W 务： 这是疯话.我埂在说的是经济，钞溟。打激 
励人们才有反应.你这种前怕锒后怕虎的想法是不会把 
我们救出困埭的。 


,營销剔总我 



你手头的数据 ft 否能让你明了囑种策略 
将提离锖最？ 



你熏要傲一个实验，涛 
出彿种策硌最布效 

请再看一下上一页最后一个 问题： 


你手头的數据是否能让你明了 ■种策 略 

将提离鋼置？ 



观*數《洚#毛注葙乐來來. 


你没有任何观察数据能够表明， 如果试 着照营 
销副总栽或首席财务官的建议去做，将会发生什么 
情况。 

如果你想对与数据相符合但并未在数 据中圯 
分体现的事情做出结论，就需要用理论将它们联系 
起来. 


这蚩 a 论可对的. 也可被 彻底 



尽管这二位都狂热地相倌自己的理论及根据 
这些理论制定的策略，你却没有*据支持任何一种 
理论. 


为了进一步弄淸楚哪种策略更好，你将需要做 -- 

个实驢. 


你需 SW 汶些策 B 进行实验， 巨的 
是了解 M 轉策 骼将檔 _消_。 






实验 
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更便宜的咖啡 


星 ett 降价5 

在首席財务官的提示下，首席执行官下 
令所有分店在二月集体降价.所有星巴仕分 
店的咖啡价格统统降低 0.25 美元* 



汶轉 《娈^引紀 消壓藥 
fniWW 得？ 
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这是 我们丹的 


要是能知道星巴仕二月份降价比不降价多 _了 多少就好了。你认为销暈中有数据 
能帑助搞清楚这_点吗？为什么？ 


单 ISHPKWA 


斯价牿 





基本控制 
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沒有控 H 组就裔睇着沒有 比较， 没 有比较 就龕味 
着无法対»发生的瞩況扭行判期。 







1») : 我们不 能拿二 月份的数据和 
—月份 的数据进行比较吗？ 

^: S 然可以。要是你们感兴越 
的只是二月份 的銪量 是否比一月份 
的高，是能有答業的.往在不加以 
控制的情况下，这些数据无法体现 
其与 t 格下降的内在联系. 

| o ) :拿今年二月份的数据和去年 
二月份的数据进行比较怎么样？ 

:你在这个问题和最后一个《 
題中诙 到的 却是 历史控制法，这种 
方法取用过去的数*,并将这姿数 
据作为控制数与此相反的是 m 
期控制法，在这种方法中，控制妞 
与实铨纽在同样的时期内炫历 n 祥的 
事。历史椬制法4 常偏 向于你力田进 
行桧猃的对象的成功方4,因为很 
堆选出和你所測试的纽真正相似的 
控制紐.总体上说，你应该 对用史 
控制法表示怀疑. 

( o ) : 一定* 用控制组吗？从来没 
有一个案例是不用控制组也 行得通 
的吗？ 

^: 世上有很多无法控制的事. 
例如选举投*.选民不級同时选两 
个候选人，你不能先看看谁比漼进展 


世上没《傻问越 

更好，然后再•田*去选史为成功的一 
位.*说选举方式无法改变.却不 
表示不嫵一对一地分析各种竣象 ，仨 
是，如果做一个与此类似的实 
验，就能对6己的选择史为自信！ 

1°) : 那医学试验怎么说？假设你 
想试用一种新药，并且相倌这种药 
物非常有效，难道你不给分在控制 
组里的病人治疗，而任由他们生病 
或等死7 

^: 这是一个考虑了法律伦 a 学 
的好问*。缺乏控《数据（或使用历 
史控制数《>的 a 学研究所青睞的疗 
法酼后往往被《期控制实铨表明没有 
效果或甚至有无论你对一种治疗 
方法的*情如何，除柞做控《 实铨 
(对照实铨>,否«无法确定进行 
治疗是系比不进行任何治疗史有效. 
最螬糕的情况是.对于 实除上 于人有 
損的治疗， * 停止推广. 

| o ) :就像给病人进行放血治疗 
一样 呜？ 

^ : 对<*了.历史上最早的控制 
实竣中就有一*将放▲疗法与让 A 
人静养相比较 • 坦白说，使用 了几1 
年的放血疗法让人 厌恶极 了，现在. 
因为做了控《实 ft . 我们知道这是一 
种错*的疗法. 


|»):观察研究法有控制数据吗？ 

^: S 然有。记住现察研究法的 
定义： 这种研究方法让研究对象自己 
决定他们羼于嗶个纽，而不是由研 
究者来决定.«如，如果想做一个关 
于吸《的研你无法让某些人成为 
«民或不成为《民，决定是否拍烟 
的是人们6己.在这种情况下.选 
择不做《氏的人就是你现察研究法中 
的控制 te. 

1°) :我经历过各种各样的情况， 
销■都在一个月内上*,据说是由 
于我们上一个月 做的一 些工作，而 
且，因为别人说我们做得不错，大 
家都感觉良好。但你现在却说我们 
对自己做得是好是坏完全没有头绪？ 

^: 你们可能是做得不错. 离业 
生活中 fc 不了有瓮直免办事的时候. 
有时你无法椬制实 tt, 必《依賴基于 
巩察 ft* 的判断。 te 是，只要能做 
实猃就做 *t. 在下决定的时候，再没 
有比 T* 的数*史 ft 为你的判断和 
直免提供朴充了，在这个例子中，你 
还没有得到可*的数据，却有一位 
渴 a 答案的首席执行官， 


首席执 行官仍然想知道新策鼷让他多!》了多 
少钱…… 




沟通难题 


吉媾： t 席执行官要求我们弄淸楚.：月 
份賺的钱中有多少是不减价本来嫌不到的. 
我们得给这家伙一个答案。 

典兰克 ：囑， 这可是个 練手问 HU 我们对子 
多嗛 r 多少钱毫无头绪，能嫌了不少，但 
也•能赔了钱。我们算是丢人现眼了.惹麻 
烦 r 。 

乔： 怎么会.我们完全可以把销售收人和 
历史校制数据相比校，可能不会非常令人滿 
意.但他会开心的，这«是一切意义所在， 
蒡 兰克： 客户开心就蛙一切意义所在？看 
来你蛙想明哲保身。要是我们给他错误的答 
案.问題最终还是会落到我们 头上， 

乔： 随你怎么说. 


邦 兰克： 我们将不得不向他坦白事实，这不 
会是个美差， 


吉媾： 位，其实我们已经有眉自了.我们只 
需为三月份设定-•个控制组，然后再做一次 
实验， 


荛兰克： 伛 &席执 行官对份的进展感觉 
良好.因为他对这些进展有误会，我们必须 
打消他这种良好的自我*觉， 


吉姆： 我想我们能让他 iS 醒地思考，而不是 
嗤之以彝. 
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避兔解雇 1 妇 

免不了要报告坏消息是数据分析师工作 
的一部分，不过，间样的消息却可以用各种 
木同的方式来表达. 

让我们直 说吧： 如何才能避免在说出坏 
消息后被炒鱿鱼？ 


搰级钡棍分栩师曬得 S 当1 ■报 
告有 m 能孕人沮丧的消翹。 
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让我们 t 蘇錄一次实验 

我们正在做三月份的实验，这一次，营 
销部把所有的星巴仕分店分成了控制组和实 
验组， 

实验组包括太平洋区所有分店，控制组 
包括 SoHo 区和东岸区所有分店， 


发 件人： 星巴仕首席执行官 

收 件人： Head First 

主题：需要重新做实验 

我知道情况了，离薰亊大会召开还有两个 

月的时间。该做什么就做什么吧，这次要 

办好。 












混杂再现 




你的实验结示，实验组的营业收人提髙了，这可 能是闪 
为咖啡减价后人们增加了 消费， m 由于组与组之间无法相互 
比较，因此也有可能是其他原因造成营业收人增高——天气 
可能造成东岸区的人不出门，太平洋区的经济可能正在腾飞. 
到底是什么原因？由于有混杂因索的存在，你永远也找不到 
答案。 
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鞴心选择分组，避免湛杂哆素 


正如观 S 分析法一样，避免混杂因素完 
全要靠正确将咖啡店分组。但怎么分才好呢？ 



~动动笔 


这里有四种分组方法。你怎么看待每种方法在避免形成混杂 
因索上的作用？你认为 W —种分组方法最好？ 


轮流按不同的价格给顾客 结账。 这样一 
来，一半顾客进入实验组，一半顾客进 
入控制组，店址不再成为混杂因索。 


使用历史控制法，将这个月的所有店作 
为控制组，下个月的所有店作为实验组。 


将不同的店随机分配给控制组和实验组。 


将大的地理区域分成小的地理区域，随 
机将这些微区域分进控制组和实验组。 


















认识随机性 


^解著 


你认为 W —种分组方法最好 7 


轮流按不同的价格给頋客结账。 这样一蒱害委 括"*务了-镶應砉比柚在6己黹*的拥值多 

来， 一 半顾客进入实验组，一半顾客进.…: . …"::二 . 

入控制组,店址不再成为混杂因*。 ^.钱 ? ..®.害，爷今埤今.苎.存 - . 


使用历史控制法，将这个月所有店作为 
控制组，下个月所有店作为实验组。 


我们已经识过易史《裀试态计么会希来同 *. 银知道 
这几个用 f 会皮4竹么 f 使今祈结*毁掉？ 


将不同的店随机分配给控制组和实 这看 起來嘀舞蘩.《并承十兮恰劣.人们只会去便宜 

验组。 

A 的璺巴仕店嗝咖咁.而禾会去《剎钽，肩址仍是浪 
奋 S 奮. 


将大的地理区域分成小的地 理区域 ，随 
机将这些微区域分进控制组和实验组。 


委是今割 ii 域足移丈.遑人们禾至子态鳴上便宜点姝 
咖啩而接泉表玻：同时夂足够小.波各个今割区域楗 


此相就《邂科 店址龙 这是*崧的办注. 


看 來抆和 _ W 法有些关系， U 我们 
仔_看看…… 























随机汸谈 

本周 访问： 

天_, 太随机 了吧！ 


Head First： 随机先生. 感谢 您接受我们的采访. 
很明显您频繁出现在数据分析中，您能来真是太 
好了. 

M 机先生 ：哦. 我毎一秒钟的行程都有点说不准， 
我没有真正的计划，我能来这里嘛，嗯.像是滚骰 
子滚过来的， 

Head First： 有意思.这么说您对于自己没有什么 
计划或设想？ 

M 机 先生： 正是如此，东一梅头西一棒子就是我的 
风格 • 

Head First： 那你为什么在实验设计中这么有用 
呢？数据分析讲究的不 躭是秩 序和方法吗？ 

M 机 先生： 当分析师通过我的力最来选择厲于实验 
组或设计组的人或商店 （或 者*如 此类） 时，我的 
* 法会让所得到的分组互为间类，我甚至还能收拾 
隐形的混杂 因索， 亳无问 H . 

Head First： 说说看？ 

M 机 先生： 假设有丰数人受某种》性混杂因素的影 
响，这种混杂因*叫做 x 因*,挺吓人的，对吧？ x 
因素会大大扰乱你的分析结果.你不知道这种因素 
是什么，也没有任何关于它的败据，但这种因索一 
直存在，随时会冒出来， 

Head First： 徂观察分析法免不了有这种风险. 

M 机 先生： 3然，但是，假定你在实验中利用我来 
将人群分进实验组和控制组，结果是，两个组中的 
X因素最终分最一样。如果总人数中有半数人含有 


这种隐性因素，那么，划分后的毎个组中也有半数 
人含有这种隐性因素。这躭是随机法的力*。 

Head First ： 这么说X因素可能仍然会影响分析结 
果，但对两个组的影响是完全一样的.这意味着可 
以对自己的检验 S 标进行有效的比较？ 

«机 先生： 的礴如此.随机控制4各种实验的黄金 
耘准， 没有它你也能做实验，但要是有了它，你就 
能做得* W . 随机控制实验能 ih 你*大限度地接近 
数据分析的 核心： 证明因果关系. 

Head First ： 您是说随机控制实验能证明 W 果关 
系吗？ 

■机 先生 ：*, “证明 • 是一个非常非常* 的词. 
我得回避这种说法.但请想想随机控制实验能 U : 你 
得到的结果：你在检验两个组.除了要检验的变 
量.两个组在各个方面都一样，如果两个组的检验 
结果有任何不同.除了归结于这个变 ft 还能归结于 
什么呢？ 

Head First ： 那我怎么进行 M 机分 K 呢？假定我冇 
一份败据表.想要随机选择表中数据，将表一分为 
二，该怎么做？ 

随机 先生： 很简单。在你的电子数据表程序中，创 
建一列.称为随机 （ Random ) ,将下面这个公式输 
入第一个单 元格： = RAND (), 对表中的毎个数据 S 
制和粘貼这个公式，再对随机列进行排序 • 行了！ 
然后«可以将数据表分成控制组和多个实验组，实 
验组的个数根据需要 决定。 这就万事俱备了！ 




现在该设计你的实验了。既然你已经了解了观察研究法和实 
验研究法、控制组和实验组、混杂因素和随机性，你就应当 
能够设计合适的实验，找到想要的答案。 


你试图明什么？为什么， 


你的控制组和实验组将是什么样子？ 
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§4 动笔 
^解奢 


你刚设计好自己的第一个随机控制实验。 
它会如你所愿好好发挥作用吗 


你试图证明什么？为什么？ 

实验蛛 fl 的是&7為淺楚下面噚种鈹注《提高销音： 

值持说状.减价成耆试说服《害璺巴仕咖畊很唷价值.我们准备用一个用姝时同迸行这个 


实验： 就定在三用. 


你的控制组和实验组将是什么样子？ 

控也 组兩蜣 今店将 M 脅工作一 ( SA 竹么#别之处.一个窠搶徂将由三用传蜱价的今店徂 


成.另一 个窠* 徂将由派庙 R 雄说害户巴仕咖啩很省 价值- 的4、在徂成. 


如何* 免潘 杂因素7 

通过精心逸揷各个 徂泉避 兔泜在(8*.我们将把每个璺巴仕地 ( i 4、态多个微区域. 鼓后随 


机将微区域池中的成 R 今 fc 给椬舶徂和窠齄徂.子是.三个徂的锖况将火致相同. 


你的分析结果会是什么样子？ 

这 妻等我 们敗完窠酱豸<可《知道.禾过.结票可《是：一个窠發徂成兩个窠腌租都泉現 


出比控«徂夏翕的销 f. 


























结果在此 

星巴仕依计行亊，用了儿个星期做这个 
实验。与其他两个组相比，价值游说组的曰 
营业收人立即上升，而降价组的营业收人其 
实是与控制组持平。 


看起象这个策絝4赢家 f 



这张图非常有用，因为它进行了有效的 
比较。你选择了同样的组，然后区别对待， 
干是现在的确可以将不同*啡店营业收人上 
的差异归因于正在检验的因索， 


这箜结果非常梅I 

价值游说看来比降价和维持现状带来了 
更髙的销 a, 看来你已经找到 答案。 



实验 


星6任找到？乌经验吻含的 
锁售策蛣 


在你开始这段实验历程的时候，星巴仕局面混 
乱。你小心地评估*察调査数据，从星巴仕几个大 
人物那里/•解到更多的业务信息，从而创 a 了随机 

控制实验。 


实验进行了有效的比较，表明游说人们星巴仕 
咖啡有价值是比降价和维持现状£有效的提卨销* 
的办法《 
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3 最优化 


命 



# 寻找最大值+ 


有些东西人人都想多多益蕃。 

为此我们上下求索。要是能用数字表示我们不断追求的东西一一利润、 
钱、效率、速度等，实现更高目标的机会就在眼前。 有一 种数据分析工具能够 
帮助我们调整决策变置，找出解决方案和优化点，使我们最大限度地达到目标。 
本章将使用这样一种工具，并通过强大的电子表格软件包 Solver 来实现这个工 
具。 
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玩具故事 


观在是浴茲玩異游戏时间 


你受雇于浴盆宝公司，这家公司执 
全国橡皮鸭和掾皮鱼浴盆玩具生产之牛 
耳，信不信由你，浴盆玩具是一項正正 
经经的业务，利润丰厚。 

厂家想多 鎌点， 听说时下®行通过 
数据分析打理业务.于是给你来了电话. 


樣皮鱼禾4耆规产 
品. 俚衾得很 崧. 
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\ 斛著 


* 件人浴 B* 

收件人 I Head First 
主趣 请 K 供产 fi« 合分析 

彔爱的分析 《. 

*«*上«真*太好 T 
8们 »«■**«*, 为 a 必須 ««镰 
皮 w 和 *s •的产》«5合通， 


你需要哪些»据才能解决这个问 H 7 

t 先.肇崧《 够知道 橡皮鴨和橡皮鱼蜣赢利《力. 4圣一种产 
品比另一种产品利》更*?險此之外.娘崧《知道钧束这个同 


ft 的其他<§音. i 产这喽产品當妻多少裱故？ 4产这喽产品需 


妻多少时闽？ 




努据故六 


细 fi -- 1^你擗要了解的信息. 

可以将所*要的数据分成 两类： 无法控制的因索.可以控制的因*. 


这姿 i 你无《 

椬《«卤素. 


橡皮鱼的利润如何 
厂家有多少橡胶可以用来 
生产橡皮鱼 

厂家有多少橡胶可以用来 
生产橡皮鴨 


接着&客户为了尽最提高利润而要你弄淸 
楚的基本问埋。最后.就垃你能控 制的： 这两个 
问埋的答案。 


这安是你* 
»制始 S *. 


生产多少橡皮鱼 
生产多少橡皮鸭 


橡皮鴨的利润如何 
生产橡皮鱼要用多少时间 
生产橡皮鸭要用多少时间 


你需要得91有关能控 IM 的 
因橐和不能控制的因繁的 
可靠数宇. 









你能控制的变 1 受到约束 
彔件的照制 

这些考虑亊项被你为约束条件.因为它们 
将决定问哩的有关参数。你接终追求的无非垃 
利润，而找到正确的产品组合就是确定 F 个月 
利润水平的办法， 

但选择哪种产品组合将会受到约束条件的 

限制。 



这喽就 是这个冏题 
妫窠阵 殆東条件. 

决策变量是你盤控制的 
TB) # 

约束条件不会告诉你如何实现最大利润 • 
它们只告诉你在实现利润最大化的过程中无 
法做到的亊 • 

相反，决策变 鼉却垃 你能控制的因 
你可以选择生产多少只橡皮多少条掾皮 
鱼，在不超出约束条件的情况下.你的工作 
躭是选择一个 组合. 实现最大利润. 


发件人：浴盆宝 
收 件人： Head First 
主题：可簏有用的信患 
( 亲爱的分 析师： 

问得好。关于橡胶供应置.我们的橡胶够生产500 
只橡皮鸭或400条橡皮鱼。如果我 i 门真的生产400 
条橡皮鱼，就没有橡胶可以生产橡皮鸭了，反过来 
也是 一样。 

我们的时间够用来生产400只橡皮鸭或300条椽皮 
鱼，这还得看要花多少时间来备妥橡胶。无论如何 
组合，如果想让产品在下个月上架销售，我们的产 
置都不会髙于400只橡皮鸭和300条橡皮鱼。 

最后，每只橡皮 W 的利润是5美元，毎条橡皮鱼的 
利润是4美元。这些倌患有用吗 7 
致礼 

浴盆宝 



_ •陵梦动膊 

既然如此，你觉得应该怎么处理约 
束条件和决策变最才能找出实现最 
大利润的办法7 
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你磁到？ 一个最优化问涯 

当你希望尽*多获得（或少 获得） 某种 
东西，而为了实现这个目的需要改变其他一 
些量的数值，你就 碰到了一个最 优化问題。 

在本例中，你想通过改变决策变量.即 
所生产的橡皮鸭和橡皮鱼的数量，实现利润 
最大化. 


你 *6 决策文看 



如何从这屋 - ► ……到达这里？ 


然而，为了实现利润最大化.你必须遵 
守约束 条件： 两种玩具的生产时间和橡胶供 
应量。 

为了解决一个最优化问题，你需要将决 
策变置，约束条件及希望最大化的自标合并 
成一个目标函数。 







偖助 © 标亟数崖现 ©标 


你希望最大化或最小化的对象就是目标， 
目标函数則可以帮助你找出最优化结果。 


你的目标函数用数学方法来表达是这个 
样子： 


| 个 - e - 象承 
一个钧來备件. 


1 + 


專个•，泉承 
一个决策文看. 


C 2 X 2 = 


表你 46 0 标.卯 

I 期*的*太化对象 • 


P 


別吓坏了I整个等式的意思是，通过将 
毎个决 策变量 乘以一个约束条件，就能算出 
可能实现的最大值 "P- (利润 ）• 



嗜*仗化问超4用的0标 A 獻 * 糸复 


约束条件和决策变*在这个等式中共同 
作用，形成橡皮鸭和慊皮鱼的利润，最终形 
成你的 目标： 总利润 .. 



橡皮鸭利润 


你**由己*达刊 

46 a #«*«*. 


橡皮鱼利润 


任 faiyrn 化问蠲都_ 
一些约帝条件朝一 T 
目标級鉀。 


你认为应将哪些特定值作为约束条 
件， -C,” 和 -c 2 - ? 



你的目标蚤数 


摒要放入目标 a 数的约束条件是毎种玩 
具的利润。 

下面是另一种认识该数学 a 数的方法， 

( ^ ) 


通过销售橡皮鸭和掾皮鱼获得的利润等 
于毎只橡皮鸭的利润乘以*皮 鳾的数 ■:再加上 
毎条橡皮鱼的利润乘以橡皮鱼的数量. 


(*li») - 



这4來6»4銮的«户. 


/ 毎只檬皮轉， 
\ 的利润 


檐皮鴨的 

数置 


/毎条橡皮鱼 > 橡皮鱼 

V 的利薄 的敷置 


) =«« 



现 ff / B 了以忒着做一些产品组合，你可以 
在等式中填人一些代表毎种产品利润的®值， 
以及一些假定的数置. 


( 5#元利 . 100 HW ) * ( 4 美 元利® 


&票 你块定4产 Joo.o •樣 
皮鵪和50条橡皮1.这 
就 4你錄得«利 《. \ 


) =700美元 


这个目标函数说明下个月将嫌得700美元 
的 利润。 我们还要用这个目标函数试算许多 
其他产品组合_ 
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最优化 



列出布其他约東条件的产品组含 







图形多元化 


在罔一涔珍形里给制多种 
约東条件 

我们可以把两种时间约束条件画在同一籴图 
形里，团中不再用条形围代表毎种产品组合，而 
是用虚线代表。这样的图形能够方便地同时表示 

两种时间约束条件. 


浴 t 

300 

S00 

* 300 
产 

t 宝下个月的4 

条蠔皮 & 

产时间*生产 

X 

1 

— 

✓ 


1 ✓ 1 


产 ft 产品 产品 | 

ffi 合1 铒合2 组合3 1 


浴 * 

400 

500 

皮 

W 300 

J joo 

t 宝下个月的生产时间* 

只橡皮 W 

生产 

X 



✓ 



— 

产* 产* >品 

组合1 组合2 组合3 




张图形上，然后考虑有可能采用的产品组合。 
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最优化 


含理的选綠都出现在玎行 g 域里 





让我们增加一些其他的约束条件，这些条件表明，按照给定 
的橡胶置婕够生产的橡皮鱼和橡皮鸭的数最。 

这是浴盆宝的 说法： 


500 

1 

400 

1 

橡300 

1 

裏2。。 

1 

100 

1 

1 

° 

100 200 300 400 500 


橡皮鱼 
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最优化 





500 


400 

\ 1 

1 

橡300 

\ : 

皮 

、 1 

鸭200 

\ 1 

100 

!\ 


\ 

0 

100 200 300 400 500 


橡皮鱼 
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最优化 
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用电孑表梏实现最优化 

Microsoft Excel 和 OpenOffice 都有称手而小巧的 由数插 
件，英文叫做 Solver, 中文叫做求 解器. 可以麻利地解决 
最优化问理。 

只要插人约束条件，写下 S 标函败.其他的算术工作 
就交给 Solvei ■吧。请看这张电+表格，其中有你从浴盆宝 
公司收集到的所有数据， 




>佚舟 r 我/ 

r ♦ 


www.hesdfirstlabs.com/books/hfda/ 
bathing_ Mends 一 unllmited.xls 



这个电 7 -表格里 有几个 简单的公式，首先.这里有一 
些数字可以算出橡胶潘求*.浴盆玩具的构成单位是橡 
胶片，单元格 - B 10: B 11- 的公式用 T - 计算所需要的橡胶 
片的数最。 

第：，单元格 - B 20” 的公式用子将椽皮鱼的数量和 
橡皮鸭的数置分別与相应的单件利润相乘.得出总利润。 


票用的是 

策单中没则鴒； tw 杀三. 

试 试看. 点击 Data (数据）菜 麟下的 Solver^ 


钮.结果如何？ 










^解者 


Solvei •对话框中的空白位置该如何与你刚刚学会的最优化概 
念对应起来呢？ 


用箭头画出每个元素在 Solver 对话框中的位置。 



你认为目标函數会:在 W 里9 

fl 标 A 數写在电孑表掊的一个單无掊 f . 边回值即所氺的目标. 
这里蛛目标* 數托氺始目标《是总利 》. 





rotal profit 











既然已经定义好最优模型，现在«该 
将组成樓型的元素插人 Excel, 让 Solver 来 
为你完成这个数宇游戏。 


0 设定你的目标单元格，使其指向你的 

目标函数。 


0 找出你的决策变量，将决策变量添加 

到 “Changing Cells- (更改单元格） 
空白处， 


0 添加约束条件， 


0 单击 Solve (求 解）！ 


这 f 4橡《 
约來条件. 




ft *1 备件; 


CrtbtMM 冰时 II V«1 


单击 Solve (求 解）， 
结果 Ifflfffl ? 





Sover 的工作 



Solver —气呵成蘚决最优化问涯 


干得好。 Solver —眨眼就能为你找到最优化 
解决方案.要是浴盆宝想实现最大利润，只要生 
产400只橡皮鸭和80条橡皮鱼就行了， 


试其 J 一丈飧麩值.找 
**«■* 丈利》的《合. 


看起来 ♦故也用尽: T. 


而且，如果你比较一下 Solv« 的计算结果 
和你自己幽的團，就会发埂. Solv er $ 认为的 
精确点位于可行区域的外限上. 


起來禾错.洗在再 
( 说说你是怎么得虫这 


最好向客户解释一下你*忙 
了些什么…… 
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最优化 







400 

' I 


\ I 

橡300 


皮 

赛津、 1 

甲鸟200 

, . \ 1 


\| 

100 

編 、 


HR ? \ 


100 200 300 40 


橡皮鱼 















利 «. 


这梂电孑泉掊農示计箕出的*优化产品徂 


合.在禾起过的來备件的積况下.在斛嘀产品组 


合中. 4产 4 oo 戶 .椽皮鴨和 so 备橡皮鱼*实現最太 


动动笔 
^解者 


该怎么给客户解释你所发现的结果呢7 


400 

f 參 -1— 


:廉、 1 

橡300 

Ife 

皮 n 


鸭 200 

\ 1 

\| 

100 

IS 、 

0 

1 


(£ 中的郝今条示在给定约來备件下可《采用 
的斯嗜椽皮鶫/橡皮鱼产品组合.诒來条件用虚钱 
象示. 任这枨 *4没<指出 A 钵方索. 


橡皮鱼 














利润路穿地板 

你刚从浴盆宝得知关于你的 
分析结果的消息…… 


发 件人： 浴®宝 

收 件人： Head First 

主题： 你的■•分 析" 带来的结果 

亲爱的分 析师： 

坦白地说，我们惊呆了。我们所生产的80条橡皮 
鱼全部卖光了，却只卖出了20只橡皮鸭，就是说 
我们只得到了420美元的利润，你应该看得出来， 
这比你为我们估计的2 320美元的利润要低得多。 
显然，我们想®比这更好的结果。 

我们以前从来没有经历过这样的橡皮鸭销最，所以 
我们暂且不贵怪你，除非我们自己艴够对所发生的 
情况进行评估。你也许也想自行分析一下。 

致礼 

浴盆宝 


迷制下崧多鴨5! 






你的模型只是楛逑？你 
规定的情況 


你的樓型告诉你如何实现最大利润.但 
仅仅是在你所规定的约束条件下。 

你的模型接近亊实，但永远无法完美. 
有时候，这种不完美会导致问题. 


我们最好记住一位著名统计学*说的这 
段赖 皮话： 



“一错误的， B _ 中些 琶有用的。 
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最优化 

桉擦分析目标校正假设 


你无法规定全部假设条件，但只要缺失一 
个《要的假设条件，分析结果就可能毁掉。 

你要不停地追问 自己： 规定的假设条件 
应该详尽到什么程度？这由分析的重要性来 
决定。 










till 进行需求預瀏 



世土没《傻问越 

r»i :万 一不* 谱的假设成真，也躭是人们什么都乐^:但你可以用开《得多的忍縝方式来思考最优化,, 
意买，结果会怎么样呢？最优化方法会有效吗？ 最 优化* 蜋方法的最终目的是得出自己希《实现的 H 标， 

然后小心地签别会影响实现这个 B 标的约束条件通常， 
^ : 可能会。如果你可以假4所生产的每一件产品约東条件能够以定量方武来表现，于是 Solver 之类的算 
都将卖掉，那么，利润最大化工作将主要曲 ft 调整产品法软件就能发挥作用了 
组合展开, .， 

1°) : 这么说，只要我的问 H 能够以定置方式来表 

:可要 ft 我设 定一 个目标函数指出如何让橡皮 W 示， Solver 就龊为我完成优化工作。 

和橡皮鱼的产置最大，结果会怎么样呢7会不会是这样. 

要是样样东西都能卖出去，我们该算计的就是如何生产^ : Solver 可以解决许多定 量问题 .但 Solver 主要是 
更多产品。 一个解 决线性编《问*的工具，优化问*还有许多其他 

类®. 可以用各种算法来求解要是你想多学几招，可 
答: 这是一个很好的想法，但*记住你有约束条件 在网上技索运算研究 

浴盆宝的联系人告诉过你，能够生产的橡皮鸭和橡皮鱼 

的教量既受时间的限制，也受橡皮供应量的限《,这* (o) :要是我用最优化方法来处理这个新模型，人们 
都是你的约東条件 就能买到想买的东西吗9 

1°) :最优化听起来很狭义。只有在你有一个想实现^ :是的，前提是我们得知道如何把人们的喜好添 
最大化的数值，而且 有一些 称手的等式可以用来找出相加到最 优化祺 变中 
应的正确数值的时候，才能使用最优化这个工具。 
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这里 有一些 橡皮鸭和橡皮鱼的历史销售数据。 




- : 9610s10211011:1m124u32s1«4174u45uo13213013114ss162179s208140s137159s1so177su221630033si 
:二 

lJ25MM29HMW91l7*lsl4»M3030s;Msl(»10s«4sM6aJ710603s172 明 SUMreollj 


I7J7673SS2S3S322S211U12S9091S3SMM43US1343930337344S40372912713760U5137II 

PISESiEisli 


,-mjfmamjjasondjfmamjjasonojfmamjjason-^* 

ll-^jr,K3 4 s 6 7 8>9.SI 11 —aa a.at.6 11 17 11 Ms.s a a s.a sasi.al29aMas!l3435JS^rjJ 
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更多榇 皮鹨， 更少橡皮鱼 


4 — 


你从这些新数据中看出什么了？ 


这些时间内的销置变化规律是否龊告诉你为什么上个月 
橡皮鸭卖得不好$ 

橡皮鴨和椽皮鱼的销看似年背道而靶.一个上 

針.另一个 削下轉 ■. 上个用蜣精况是人人部想 


♦年一量都巨襟下 


这叟是一个»析点.裱皮 
鴨在此之«索得禾艚.此 
后政态樣皮裊 領先. 


这筻是另一个耗折点 f 
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最优化 


桡昉资相兵变1 


我们不知道为什么橡皮忾和橡皮鱼■的销 s 
看上去南辕北辙，但可以肯定它们是负相关关 
系。一种产品 a 多，就意味着另一种产品«少《 


有时候.橡皮鱼的销 有时候.檐皮 鴨的销 

置下降，橡 皮鹨的 《 量下 》. 檐皮鱼的销 

置上升. ■上升. 

11 Tl 

•办 I I t. 


在考® 3 销售*蟑期闳.兩种户 
品 会 gW 出 現上針 金势. 僅永述 
唷一种产品比另一种产品夏钡先. 





^梦动膦- 

你打算在你的优化模型中加入哪种约束条件来体现橡皮 
鸭销釁和橡皮鱼销置之间的负相关关系7 
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你希 if 史玫这个鑰 
入柚里 妫诒來备件. 


Bathing Friends Unlimited 
Manufacturing plan for December 


Count 

Duck 

Fish 

00 

80 



Needed per un 

Duck 

Fish 

fotal pellets used 500 

>ellet supply 50( 

it Used 

00 40000 

25 10000 

00 

00 












■新估 算利润 



StOlKK 
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按计划实施 


新方案立罕见影 







你的假设立足子不断变化的 
实际情況 

你所使用的所有数据都是*察数据，你无法预 
知未来。 

你的模型现在是在起作用，但可能会突然失灵 • 
你需要做好准备，以便在必要的时候重新构建分析方 
法，反复不断地进行构建正是分析师的 工作。 


裱知道嶼尺店* 

会; t 么#呢. 



要对银《进行大鎿. 


做好嫁改輾型的准盡！ 
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4 数椐七 


命 



¥形让你更精明 


数据表远非你所需。 

你的数据庞杂晦涩，各种变量让你目不暇接，应付堆积如山的电子表格不 
只令人厌倦不堪，而且确实浪费时间。相反，与仅仅使用电子表格不同，一幅 
用纸不多、栩栩如生的清晰图像，却能让你摆脱 "一叶 障目，不见泰山”的烦 
恼。 


来到新军队 


新军 P 人熏要优 化网站 


新军队是一家在线眼装零售商，刚刚进行 
过一次测试网 m 外观的 实验： 在一个月的时间 
里，毎一位浏览网站的人都随机浏览到下列三 
种主页设计之-。 


这是 iS > 



a . / ^* 止: 


们一直在用这种风梏] E . 


圓 

■ 

H 


他们让实验设计师们_ •鼓作气进 
行了一系列测试，希望这些测试帮助 
他们找到网站设计的归宿，他们想挑出 
最优秀的风格页，让销量最大化， U ； 人 
们成为网站的回头客. 



112 深入浅出数据分析 





结果面世，信患设计师出爲 


既然已经通过受控的随机实验搞到 了大堆 
炫目的数据，就要想个办法将这些数据的价值 
统统体现出来. 

于是他们雇用了一位信患设计牛人，让他 
汇总这些资料，以便从调研信息中刺探情报。 
岂料亊情并不尽如人意。 



你*要重新设计分析 田表, 这可能是… 
个艰难的任务，因为新军队的实验设计师* 

-帮要求苛刻的«英，他们拿出了大置实在 

的数据。 


[ 我们膚用的侑惠议计崢给了我们一罐珐坫. 

稂蜂无助子理鱗數据.我们炒了体.你 ' 
* 给我们 釗建一步麩彤.帮助我们建《 
(一个更崧的网 站玛？ 


在开始工作前，让我们先看看打人冷 
宫的设计，知道哪种图形不管用也许能让 
我们对某些东西先知先觉。 


U 我们看看泫些打八 冷旮的 
设计…… 
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前一位信患设计师桡 
交的三份信患珍 


信息设计师将这三份设计 a 交给了新 
军队。看看这些设计，你有什么印象？能 
看出为什么客户难免无法释怀吗？ 


关鍵词点去…… 
这是什么*思？ 


言* A 小可*与点 

击獻唷某种夹系. 




你可 在 http ， // mwiv , ivo^dU . n«t 

免费 4 成这#的标签 



这採 (!) 似手4 
在看 度备种 i 


各种风 栝负鲶 负面访间总數 







KS 队典 S ! 路径 



-tMiijliiiiii 
iiiiiiiiiipi 

ililiiiliiii 
菌 ii 

■ itfasiifiiii 

i—-gli|ii|ii@ii 

■ i 曹 iiiiiii 園 ii 


这喽莆 *4 计么意思？ 


达些设形隐宮嘟些数椐？ 


毫无跃 同.这*«形抽脅烊目.可 
»義*中的是何真抄？ 


每当你观察一张新图片，一上来就该问 
“图片中隐含了哪些败据？”你所关心的是败 
据的质■:及其含义.你讨厌炫目的设计，它们 
会妨碍你作出分析判断. 


这巵*»藏詹竹么？ 



无 iH 部是麩 


- 梦动膊- 

你认为这些图片隐含着哪类数据 7 




看看数据 


体 m 数掩 I 

你无法从这些图片上看出隐含了哪些 
数据。要是你是客户，面对连包含了哪些 
数据都说不上来的图片.怎么能指望作出 
有用的判断呢？ 

体现数据。创建优秀数据围形的第一 
要务就是促使客户 US 慎思考并制定正确 
决策，优秀的数据分析由始至终都离不开 
••用数据思考"。 



这姿« 彤可 与各种 

禾间的歙 


^-计崢喜 o 者诉你 . 杏射 

你无 ii 知邐 * 彤 舍的信 


这姿 ifi 形系 会基# 掌趴- 

的各种冏*#泉答索. 
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数据田形化 


这是前一位设 i 十师 
主动桡供的意见 



动动笔 
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小唐说数据太多会给绘剃优秀图形带来极大困难，有道理吗？ 
并《全无 道娌. 麩 掂今斩 的枨硃在子总结獻楣.而一喽总锫工 A , 例办尔年均值.禾營 
獻据蓼赛可麩逐是禾计其數.都同#唷 k . 委是你孕头嘀妹钵种种的數据可供相至比 t , 
这的 ■** 很抄.像所哺其他工 A —#. (6 彤会嘀利子这 种數籌 今祈. 



上，无视其他。 

















哦，真的吗？你认为作 
为数据分析师.你的 I 作躭 
是给客户带 来美* 吗？ 


让数椐变奚难也不是你 
要解决的问瓸 




只® 数据 ffl 形能解决客户的 H «. 不管 
是精美扎眼还是乎平无奇.都会对客户冇吸 
引力 • 

正如进行任何优秀的数据分析一样.制 
作优秀的数据圈形也需要明确起步点， 


「动膊 


如何 通过一 大堆充满变数的数据来评估你的目 
标？究竞从《 (里开 始呢？ 



数椐楹形化的根本在子正碥 f : 匕餃 


为了形成优秀的图形， 首 先要明确能够实现客户目标 
的基本比较 对象。 埂在看. - fi - 客户最重要的电子 表格： 




尽苷新军队的数据不止这三张表格，但 
通过对 这二张 表进行比较.却能够 直接回 
答他们想知道的答案，让我们马上尝试比 
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佚弗 r 我/ 


tvww. headfirstlabs. com/books/hfda/ 
hfda ch04 home oaael.csv 


这个麩值代象 *»« 的粵值 电户闽 氪的两站时 W 


这个數值代泉 
网站访问用户的人半 
均 «费金 S 0 括. 


















jfir 


你的铵形 B 经比打入冷宮的 
恝形更布用 


这4优 ft® 形 

的另一 个特立 


现在看到的是一张不错的图形，这肯定对你的客 
户有用。这是一个优秀的败据图形实例，因为它…… 












用败点图发现原因 


使用骹点搀探索原哆 

散点图是探索性数据分析的奇抄工具.统计学家用 
这个术语描述在一组数据中寻找一些假设条件进行测试 
的活动《 


分析师喜 欢用敗 点图发现因果关系.即一个变量;影 
响另一个变董的关系。通常用»点图的 x 轴代表自变 a 
(我们假想为原因的变 *>. 用 y 轴代表应变量（我们假 
想为结果的变， 


这是一枨歙点《 



你不必论证自变1是影响应变量 
的原因，因为我们终归是在探索败据, 
而原因正是我们的探索自标， 
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最优秀的餍形都是多 X 搀形 


如果一个图形能对三个以上变量进行比较，这张 
图形就是多元图形.再加上有效的比较是数据分析 
的基础，于是尽 量让明 形多元化最有可能促成最有 
效的比较，在本例中.你拥有丰富的变量. 



^你《嗜丰當 的嚷耆 


择梦动辟 i 


你如何令自己创建的散点田多元化？ 

















图形多元化 


罔时展示多涔移形，体现 
更多変 1 

有一个办法能让图形多元化，即将多张相似 
的敎点图相邻排放，下面是一个实例. 


所有变量都绘制在这些图形中，这样就可以 
一举进行大量比较，由于新军队真正关心的是营 
业额的比较情况，所以，我们只要继续视察浏览 
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§6 动笔 
^解奢 


新图形有助于你了解风格页的比较性能吗？ 


你认为这张图能有效地体现数据吗？为什么？ 

劣然 9 铱«上的每一个点代象一值网站用户的獻受.所 .. i . 卯使麩掂点已经汇总并氺 
年幼.迷是《完金看釗所唷的 A . 看到所嘀的点后.就《方便地对立的今讳精况进行详 
诂.半均依则便子我们看出粵种相对子其他的: m 见."1&相对子漸的 
目标值的 表現. 


注意看这些点，你可以看出主页2上的点的分布情况与其他两种主页的情 况遇然 不同。 

你认为主页2有什么 a 跷， 

看起束 i "® 2 条現很差.与其他风掊5相比.至：® 2 蒂来的营止《 禾多.闽览时同和闽1 
5麩也间稗糟瓠. 每一 值阉站 用户的 钝计 值都低子斯軍 h 的 S 标. i «2 太差劲了.在谘 
立即从网站上 撤下. 


你认为这三种风格页中哪一种最能有效地让新军队关心的变量实现最大值？为什么？ 

表现 景林. 从營止收 入上; t , 尽營 i "5! 的營止收入高子年幼值. i ： fi 3 却可 彳 说是 
遥遥 领先： 至子 ® 访丰. 领先： 访同 "5 數则是兩者 并驾夯 蓰. 佴人 们在至龙3上46 
進留时间更长.够蒂束钕高 ® 访率.这很了禾起.《 无注与 鱼® 3 的高 f 止箱相 
抗衡. 


















世±；6« 傻问遜 


io ) :我该用哪种软件工具来创建这类田形？ 

^ : 这些专止图形是用一个叫做 R 的狭■计教据分析程 
序创建的，本书后续幸节将对此详加叙述：不过不必拘 
泥于此，純计行北还有许多可供使用的图表《作工具， 
例如可以使用 Adobe 川 ustrator 绝田《序，甚至可以自己 
A 田实现软件工具实现不了的 B 形设想。 

|») : Excel 和 OpenOffice 可以用吗？它们也有绘 ffi 
工具。 

^ : 可以，说得不错它们有一*烩田工具，但教 
量 有限，你也许能够设法在电子表格中创建一张这样的 
田表，伍恐怕得打一场磽战。 

1°) :听起来你对电子表格数据制图不是很热心7 

^: 许多严谨的教据分析抨习慣于使用电子表格《 
序进行基本计算和列表，却不会幻想将电子表格《庠作 
为制田工具，这样做会让人伤进 脑筋： 使用电子表格《 
序只能创建屈栺可教的几种田表.不仅如此，《序往往 
还会魅《你设定决策格式，而你本不打算如此。并不是 
你不 氯用电 子表格《序给制优秀的教据图形，而是这样 
做会慧麻烦上身，要是学会使用 R 狂序 之类，就不会有 
那么多的麻烦。 

1^5) :要是我正在寻找制 a 灵®,电子表格菜单会不 
会让我如愿以 


^ : 办不到，办不到！如果你要寻找设计灵感，可 
能需要看几本 EdwardTuftc 写的书，他是教据困形化方面 
的最高权威，他的著作宛如一座奇妙的数据图形化博物 
信. 教*田形化有时被他称为认知 艺术。 

| P ) :杂志、报纸、期刊文章怎么样？ 

^: 培养对出版物數据 a 形质量的敏感度是个不错 
的办法，有在人比則 人更擅 长设计店发性图形，如果长 
期关注出版物，凭感竟就能发现技高一筹的作品。良好 
的起步方法是教一教出版物图形中的变量，只要 一幡图 
中的变量达到三个以上，出版物就更有可能提供知性的 
比较，效果比只有一个变量的图好 3 

| o ) :我该怎么看待那些被复杂化、艺术化但无助于 
分析的数据■形， 

^: 说到利用计算机炝 制新潁 的困形，这个时代并 
不乏激情与灵气.有在图形 能哆成 为深度數据分析的推 
动力，有*只是让人过过瞰瘾数*艺术这一说本身无 
可厚非，只是.除柞有助于更好地理解隐含的教据，否 
則请别将教#艺术与教据分析31为一谈。 

: 这么说有些东西能让人过眼癱但对分析并无启 
发，反过来呢？ 

^:这就看你自己了。不过，要是你在分析中遇到了 
举棋不定的事情，而图形却对此有所启发，那么很难想 
象这 幅图形 会让你看着不顺限！ 


让我们看看客户的想法- 




樹形很#，但 网站掌 门人仍不满意 


你的客户，也就是新军队网站掌门人，剐 
刚给你发了一封邮件，对你的工作评点了-番。 
让我们看看他说了些什么…… 



他想知遵的是因果关系. 

对于他来说，搞清楚哪种设计风格有成效 
只是暂告一个段落，为了 it 网站尽可能红火，还 
需要你点抜一下，人们为什么对不同的网页有 
不同的反应？ 

另外.由于他是客户，我们肯定需要论述他 
所提出的理论。 


这是 一个合 


理的提问. 


收 件人： Head First 
发 件人： 斷军队 H 站掌门人 

S 簠： 我对 R 据的解释 

你的设计很优秀，我们很高兴离开那位老兄转 
而与你 合作。 但请 谈谈： 为什么主页3的表现 
会远胜另外两种主页？ 

一切都看上去合情合理，可我仍然想知道为什 < 
么会有这些结果。我个人认为有 两点：第一， 
我认为主页3的加载速度更快，这让网站纶人 
的感觉更爽：第二，我认为它偏冷的色调确实 
让人® 觉放松，购物的印象更好。你觉得呢^ 


看束你故害户 


对麩据46表说 







优秀的橙形设计有助子思考的原哆 


数据图形化 


你和客户青睐的換型通常都会与数据吻合。 



伹免不了会有其他可能性，尤其是 
在大家 ® 麻插想像 的翅膀 求解》的 
时候。其他模型情况如何呢？ 



当你描述你的数据囹形时.需要论述可相互换用的 

两种因果模型或 ffl 解。能完成这个任务说明你非常 公正： 
让客户知道你不仅会展示自己最與欢的一面，还会彻头 
彻尾地考虑自己提出的原理中可能存在的问题点， 
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老大的假设 


实验 设计师 出声？ 

实验设计师知道了网站掌门人的理论，他 
们发来了自己的想法，也许他们的意见让你能 
够评估一下 网站靠 门人对 •■为 什么有的主页表 
现比别的主 页好” 的假设解释。 



收 件人： Head First 
发 件人： 斷军队实》设计师 
回复： 老大的想法 

他认为页面加载速度有关系吗？可能会。我们 
还没有査看数据进行确认，但是我们做的测试 
表明，主页 2* 速度最快的，其次主页3,最后 
主页1。因此，他完全可能是对的。 
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实验设 i 十师们布 t ) B 的假设 


他们已经有机会看过你的散点 
图，给你发来了他们对事情的看法. 
这些人都是数据精英，他们的假设 
必定恰当， 



康 (8 可* if 钵和 1 S 面 洚届. 


收 件人： Head First 

发 件人： 新军队实验 设计輛 

回霣：我们不知遵为什么主页3表现更抢酿 

听说主页3是最好的主页，我们对此甚为雀跃，但我们的确不知道 
原因，谁知道人们是怎么想的？不过寧情能这样就行了，只要能 
看到业务*础不断改进，我们不需要彻底了解人们的 心理： 话说 
回来，能尽置多知道些东西还是很有意思的。 

几种风格页碥实在各个方面都迥然不同，逐个分辨每种特性引起 
的*现*异是件《手的亊，以后我们会用主页3 对一 系列细节进行 
测试，这应该靓让我们搞滴楚技钮外形、字体等等因素对用户行 
为迪成 的影呐 o 

不过，我们猜想有两个因索， 其一， 主页3确实一目了然，我们采 
用的布局和字体很 养*; 其二，页面屏次少，不出3次点击就能看 
到琳琅满 S 的商品，而主页1则需要点击7次以上才能找到合适的 
东西。这两个因索都可能彩响营业收入，但需要进 一步进 行测试 
才能碗证无疑。 


I 动动笔 


根据所了解到的倌息，你想向客户提供哪些网站战略邃议？ 
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§6 动笔 
1 -斛奢 


根据你所绘制的数据图形和你评估下来解释得通的理论，你想 
建议客户如何处理网站7 


鍵读使用 i ：®3. 对用户体腌进行细化测试.细化由容包括各种导航方式.风掊.内容 
鲁.对孟： S 3 与众禾间的; Mt 可嘀各种各#鈞鱗#.右对此进行鏑查并形成«彖. 佴很 
明里. i ： fi 3 己《肚出. 


窖户欣赏你的工作 

你创建了一个优秀的图形.新军 
队可以在此 ffl 形中迅速同步评估所有 
的测试变 

你根据不同的假设条件对图形进 
行了评估，为客户提出了出色的后期 

测试途议. 






单从 13) 靣八方漶漶而采 r 


由于网站面目一-新，访问量今非 
昔比，一派*荣。你的实验结果图 it 客 
户了解到需要了解的东西.网站因而粉 
饰一新。 


给你 送来这*# 杉朗■条 谢意. 



E 抄的是，新军队着手展开持久 
的实验程序对新设计进行提升，他们 
用你的图形考察实验结果 • 好样的！ 


这姿表® -符合.你 


条 辈站优化春鼓 7 . 
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5 假设检验 


4 S 设并非如此+ 



世事纷纭，真假难辨。 

人们需要用庞杂多变的数据预测未来，然而免不了剪不断，理还乱。正因 
如此，分析师不会简单听信浮于表面的解释，也不会想当然地认可这些解释的 
真 实性： 通过数据分析的仔细推理，分析师能够异常细致地评估大置备选答案， 
然后将手头的一切信息整合到各种模型中。接下来要学的证伪法即是一种切实 
有效的非直觉方法。 



給我来块“皮朕 


你来到“ 电肤” 公司，这是-家手 
机“皮肤"制 造商， 你的任务是弄清楚手 
机巨头 PodPhone 下个月是否要出一款新手 



机，诸多商机悬而未决， 


PodPhone 公司即将发布一款手机，时间待 
定，电肤必须在手机发布之觭的一个月开始生 
产手机皮肤，才能赶上手机销冉第_-波。 


要是电肤不备妥手机皮肤迎接产品发布， 
竞争对手将抢先下手占领市场，要是电肤生产 
了手机皮肤而 PodPhone 却不发布产品.投在手 
机皮肤上的钱躭会打水漂，天知道这些手机皮 
肤哪年哪月才能开卖啊！ 
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假设检验 



我们何时孖飴生产 
新手机皮胲？ 


iPodPh. 

推迟 


^4动笔 
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动笔- 

、 着手工作前需要了解哪些信息 9 

昉产品一噫俅人.所.4可《会采馭措施避乞他人搆嬙*产品；4；讳时同.我 
们必 播具省 其种 M 察力.访《 振飧他 们的教产品灰讳时同.间时委搆清他们的决策信惠. 


PodPhoMe 不希望别人看透 
他们的 "F — 步行动 

PodPhone 非常在意产品是否一鸣惊人，他们 
完全不 希望別 人得知他们的意图.所以，绝不能 
只看公开数据躭等着••他们何时发布 PodPhone” 
的答案从天而降。 


这*麩姆点的硝禾会 


聲未太 太鑕助 



……你找 利善加 
利用的太》達径. 



你需要弄清楚如 H 将手头的数据与自己假 
设的 PodPhone 新手机的发布时间进行比较。不 
过，酋先让我们看看手头关于 PodPhone 的主要信 

息…… 


poripto -* 知道你会看到这一切信患.（§此 
禾会让孚机皮讳封阑出現在这*资_中. 
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我们得知的全鄯该患 

这里有一些关于产品发布的尊星信 
息，电肤把这些信息拚凑在 一起* 有些 
是公开信息，有些是机密信息.有些只 
是传言而已， 


PodPhone 在新产品 

上的投资超过所有 
其他公司。 


和竞争对手的手机相 
比，他们的手机性能 
将大帽改进。 


PodPhone 首席执行 
官说••我们绝不可 
能在明天推出新手 
机 - 。 




一家竞争对手刚刚发 
布了一 款性能优越的 
新手机 ■» 


经济回暖，消费者支 
出增多，正是卖手机 
的好时候。 


据传， PodPhone 首 
席执行官*示一年以 
内不会发布新产品。 









电肤的分祈乌数椐相符吗？ 


首席执行官站在 PodPhone 的角度简单扼要 
地介绍了一步步思路.我们用图解方式记述 ft 
的 说法： 



这个模型，或者说这个假设.与 ilE 据相符.没有 
证据证明这个模型是错 误的， 当然，也没有证据强有 
力 地证明 这个横型是正确的. 


这 1*6 侑惠与电肤 没嘀开盾. 



枏理看来很产谨- 





电胲得到？机密《战蛑备忘彔》 


假设检验 





相关变置 



变1之间玎认正相兵， 
也玎认 资相兵 

观察数据变*有一个好办法，问一问 "这 些变 
R 垃正相关还垃负相 关”， 若一种变量增大 意味着 
另…种 变置也增大，則为正 相关， 若-•种变量增大 
意味着另一种变最减小，則为负相关， 

右边是 PodPhone 发现的更多其他关系，你如何 
利用这些关系雄立一个更大的模型.指出 PodPhone 
确信的观点，使这 个模 1 fi 有可能 预见到 PodPhone 发 
布新手机的时机？ 


这是钲从«战蛛备忘#» 

<々看±的一*其他夹系. 


r fl p ir 内 部开发 活动一 

I 鮮对手销置 1 | 


SSS |- e ^| TalT 








将 PodPhone 的观点放到网络中后，你的 PodPhone 模型看起 
来怎么样？ 
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现实世界中的各种原因堊 
R 络兵系，而非线性兵系 

线性等于直觉.关于“为什么 PodPhone 有 
可能推迟产品 发布” 的线性解释可谓简单明了 • 


•potfpiumti/ll { 战祷备忘最> 象明 



布图透《的东西复杂得多. PodPhonc 意 i 只到.他们 
要在•个活跃.多变，互有联系的系統中制定决策. 


作为一位分析师.你的视 W •要比这个®单的横 


型开阔才行，要讲領看出因果关系网络。（I;现实世 
界里，各种原因在相关变量构成的网洛中传导…… 
你的撗型怎么可能独舞其穿呢？ 


鼉我们该 te 何 fit 用 这个两 鉻束鼻( I 楚 
撕产品 *6 时机？ 怎 么处殯 

齩* 呢？ 





假设几 个 PodPhone 备迭方案 


PodPhone 迟早会发布手机新产品，问@ 
是-何时？ 


回答这个问題有各种依据.这些依据都能 
成为分析假设.下面是几个依据选项.指出了 
产品的可能发布时间，电肤交给你的任务就是 
选出其中的正确 假设。 


你将用 某种方 注 将6 己 
姥* 诅与这 姿证* a 

I 在-… 《*» 



用手头的資料进行假设检验 


通过理解 PodPhone 的心智横型和自己手 
头的证据，你捜集到大*信息，換清了电肤的 
心头 大亊： PodPhone 何时发布新产品. 

你需要用某种方法整理这些思路，形成可< 
祺的预测。 
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证伪求真 

假设检验的核心是证伪 


请勿试图选出最合理的假设，只需副除无法 
证实的假设一这就是假设检验的 基础： 证伪。 

选出看上去最可信的第一个假设的做法称为 
满意法.如下 所示： 


别用满應法！ 



满意法其实非常 简单： 选出第 -- 个选项. 
其余不作处理.相反，证伪法則如下所,示： 




看来，满息法和证伪法让你得出了同 
样的答案，对吗？可并非一 H 如此.满意 
法的严 重问题 足，当人们在未对其他假设 
进行透彻分析的情况下选取某种假设时, 
往往会坚持这个假设，即使反面证据堆枳 
如山，也往往视而不见，证伪法則让人们 
对各种假设感觉更敏锐，从而防止掉入认 
知陷阱。 


这是葙票汉存的《议. 


进行嘏设輟陨时，费使 fflM 伪法， 
0) 腰满窸法。 
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动笔 


试试证伪法，划掉有证据证明其错误的假设。 























| o ) :看来证伪法是一种分析形式 
很复杂的方法，真的有必要用这种 
方法吗？ 

^: 这是一种了不起的办法，可 

以克服人们专注于错误答案而无梘 
于其他答案的天然《向，通过强迫自 
己以完全正规的方式忍考问 《. 会* 
少因忽梘重委的特征情况而 犯饍* 的 
可能性 .. 

^:这类证伪法与统计学上的俱 
设检验有何关系？ 

^: 你在統计课上（或在 （深 

入汍出 (81 计学》 中）可能巳 经学过 
一种对候选假设 （ 备# 假设） 和 
准假设（原 假设） 进行比较的方法， 
其 B 的是识則出一种 情况： 如果这 
种情况为真，則原假设几乎不可能 
成立。 

|»): 那我们为什么不用那种方 

法呢？ 


世上没布傻问逛 

^ : 这种方法有一个优点.能让 
你把品质各异的异质教据琮合起来， 
这是非常普通的 it 伪法，对于复杂 
的问题非常有用。但是，定下心来 
使用上述頻率论者飪设检验方法賁定 
没错.因为对于教据与参教相吻合 
的检验，你是孓会想用别的方法的 

:我想，要是同亊们看到我用 
这个推理办法，肯定觉得我疯了。 

^: 要是你能挖出一*真正重要 
的东由，他们肯定不会笑你_优秀分 
析柙的 《想是找到复杂问 超的非 X 
瓮答案.你会®意聘用一个*想保 
守的教*分析 拜喝？ 如果客户真正有 
兴趣从教据中挖极一*新信息，就 
会寻見能想人所 不觫想 的人才 

(o) :看来并非所有假设都 一定能 
被证伪，比如，某些证据可範会对 
假设不利，却无法推翮假设。 

^: 完全正确 


|«) :数据在哪 里呢？我希望能看 
到更大置的数据。 

^: 并非只有数字表格才叫做數 
据假设检验中所使用的证伪法让 
你对••数据”有更广博的观察，能 
综合大量异质教据，你几乎可以将 
任何教据放入证伪結构 中,， 

| o ) :使用证伪法解决问 H 和使用 
优化法解决问题有何差别7 

^:两者是适用于不同情况的不 
同工其。在某*情况下，你希望冲 
进 "Solver" 调整变量， JL 到得到优 
化 教据； 在男一#情况下，你希望 
使用证伪法来刹除对教檐的其他可 
能解释 

1 ») :好。要 ft 我无法用证 伪法剔 
除所有假设，该怎么办呢？ 

^: 这 M* 可以入选“暫力大梓 
盘 _• !让我们看看该怎么办。 




述剩 下王个•识.看東证炻 
哺完金鱗决同*. «•在 
省诃打箕7 


如何在钃余三 个藿设 中做出选择？ 


你知道，选出看上去证据换充足 
的假设并不是一个好办法，而证伪法 
只帮助 你副除 了两个假设， 现在 该怎么 
办呢？ 


M2 ： 

下个月发布賴 
产 a 


M3, 

半年内发布 
斷产 a 


價设4: 

一年内 发布斷 
产品 



最 终螂种 《 a 会该认 《&*»* 议呢？ 




俚设检验 


















选出自己最喜欢的假设剿除技术了吗？ 


将各种假设与证据进行比较，挑出最可信任的一种。 

这种破注很扈诠. 同超在 子我斯拥唷姝 tfcil # 禾杳金.可*唷一姿确窠《耆重要吣信惠 : 
而我南未得知.若票其也此.摒么根据托知道的锜况选 该就很嘀可％ 得 A # 诀蜣 
答素. 


简单地罗列所有假设，让*户决定 ft 否开始生产手机皮肤。 

这去楚是一种选挿.同 * 在子我窠标上对楮论禾承拉位何责位.換句话说，作掂今 
祈#. 叙却 戶 .湫了鈒 据俜遂 工作.没出惠. 


对假设进行评级，不利证据越少的排在越前面。 

这是最符的办 ii . 我己经用证偁 ( i 把肯定禾成立的 ( R 议 W 除掉了.说在，狎使无 ( iW 除 
W 下蛛*议.也*错助证《找±最强的*该. 

















搞筹. 把看上去 *8 的*议#在* «*> 会省风險 
吧.这承是重成用**这选 出我们 喜欢始 i » 议. 
而禾是选虫 A 省*猙证 《 i 枋的* *7 



只*是通过现察诊断性对证据和《设进 
行 比较. M 不会《0此. 

只要证据能够帮助你按照强弱程度 
对假设进行排列，它躭(诊断性.因 
此.我们的做法 躭是： 将假设与证据逐 
条进行比较. SS 哪种假设具有»强的 
证据支抟， 

It 我们 W 4 f 看看这个方法…… 


#诤角 



诊新蚀是证《淅為唷的一种功铽够帮助你详 I 
诂斯老虑的《议的相对似办票证据 A 嘀琀断 
就《«助你对 ft 议 #4. 



偖助诊断性找出否定性最小的假设 


只要能够帮助你评估各种假设的相对强度.证据和数 

据就具冇诊断性。 F 表对各种证据和假设逐条进行了比 兮 fe 给各个 獻值* 权重今祈严谱.却 

较，“+”表示证据支持假设 ，一表 示证据不利假设。 嗜失 i 規 .（S 此锖尽力进行《*. 



另•张表格則相反，证据并无诊断性. 


这 备证籌 许斯 


它 i 持阱 唷** . 


HI H2 H3 


证据2 


^^_这条证*可*看起来挞嗜砉思. 《*«« 
鑕助我们 銲定* a . 4•则用处禾丈 . 


进行假设检验时，重点是要识別和找出诊断证据， 
非诊断证据不会给你带来任何 进展。 


让我 们看看 这些证据的诊断性- 








你的假设评定下来如何？ 



深入浅出 K 据分析 







无法一一剔除所布假设，侄 
玎认判定啷个假设最强 

尽苷手头的证据无法 it 你仅留下一个假设而期 
除其余所有假设，却可以在_下的三个假设中找出 
否定证 据最少 的一个假设。 


要是没有更多信息，这个假设就是你最好的 
选择。 







梅设检验 












印将上市 f 


你的分析准确无误，电肤已经准备了一条 
生产线，将为 PodPhone 新手机生产作常酷的手 
机皮肤. 



第5輋 S 设检验《设并非如此 






































6 K 吋斯统 i + 



穿越第一关 


数据收集工作永不停息。 

必须确保每 一个分 析过程都充分利用所捜集到的与问 H 有关的数据。虽说 
你已学会了证伪法，处理异质数据源不在话下，可要是碰到直接概率问题该怎 
么办？这就要讲到 一个极 其方便的分析工具，叫做贝叶斯规则，这个规则能帮 
助你利用基础概率和波动数据做到明察秋毫。 



医生带来垴人的洎患 

你没有眼花——医生给了你-流 
感诊断书。 


好消息是蜥*流感并不致命，在家治疗 
几个堪期即可 痊愈， 坏消息足慚*流感极其 
麻烦，你不得不歇业，不得不与心爱的人离 
別好几个星期》 




医生确信你已染病在身。不过，由 
干你对数据分析已经得心应手，所以可 
能想看看试验结果，了解了解试验结果 
的准磽性。 
















t 解奢 


你刚刚看过一些关于蜥蜴流感诊断试验有效性的数据，经你 
判断，你的患病几率如何 7 


正磽性分析报吿 

若某人已患*蟠流感.试验结果为阳性 
的概率为90%。 

若某人未患蜥嫌流感.试验结果为阳性 
的*率为9%。 


根据这个倌息，你觉得自己患蜥鍚流感的概率有多大7是如何得 
出这个判定的？ 

妻是我患嘀这个病的话.攏車看起来是 9 o %. «正办第二个说卄值 所指; k 妹. 并禾 4 
人人都急省这个禹. （ S 此我该把诂计值略微调泜一 A . 结#似手禾会正必4子5>0%- 
9%=81%. »也太« 舉了. 斛 " i 呢.不知会禾会是 75 % ? 

:宅: ::::::: 

―莒京 tl 75% 少得多！ 


在得出正礴答案之前.有太多问鼷需 

■解决. 

我们要彻底从头开始…… 


zb 心！ 


对于这类问疆.大多数人的答 案糠是 
75%—这大错特锖了. 

75%不止是个错误答案一它连正磽答 
案的边儿都没撲着。要是想着■•我得蜥 
蠕流感的槪率为75%_ . 据此开始推断.结果会错得 

更离谱！ 
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让我们遂条细 锿正碥 性分析 


分析报告针对试验给出了两类平分秋色的断 
言， 表明： "阳性”试验结果的概串随试验对象 
是否患蜥*流感而发生变化， 

因此，让我们想象有两个不同的 空间： 一个 
空间里有大*的人患蜥蜴* «. 另一个空间里几 
乎没有人患蜥蜴流感 ■ 然后再来*察未患蜥** 
感的人的 •'阳 性” W 率断言。 


_蝎流感设皤试验 

正 M 性分析报吿 

若某人 已患蠓 蟮流感.试始结果为 mtt 
的 懷聿为 90%。 

若某人未思《蜴流 S. 试铨结果为 R 性 
9 的《車为9%。 


让我们着看这匀话 




仔细观察第二条断苦，回答下列问 

謂明 湳斌设期试醱 

正_性分析相咨 



精形1 

如果100人中有90人患病，那么未®病但试 
验结果为阳性的有多少人？ 


情形2 

如果100人中有10人患病，那么未*病但试 

验结果为阳性的有多少人？ 



















广泛使用的 »据 



蜥蜴流感到底有多#逄？ 

看 起来，起码对于未患 病但试 验结果为阳性 
这种情况.蜥*流 s 在总人数中占的分量有 a 著 
差別， 

其实，除非我们不仅知 道试验 正》|性分析结 
果，而且知道有多少人己患蜥蜴流感.否則，我 
们根本无法判断某人得蜥*涑感的可能性有多大》 
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你 i 十萁的是假阳性 

在前面的练习中，你算出了被误诊为阳 
性的人数，这种情况称为假阳性。 


这 是镛形 几手没 



鸟假阳性相对的是真明性。 


除了小心假阳性，还应 考虑真 明性。真阴性指 
的是患 有疾病但检验结果为阴性， 


也禀你 嫩蟎 A 獻 . 试被体票 
妻么 4供 》 性. 要么炎 其阴性 • 


若某人未患蝤蜴流惑：试验结果为 n 性 



穿球％- 


若某人未》«蠕流感.试舱结果为阴«的- 
概車为91%。 


你觉得该用哪个术语描述这种情况，其反义词是哪个？ 





§6 动笔 


__流感设皤试验 

正碗性分析报告 

若某人已思* S 流®:试验结果为 nit 
的槪率为90%。 


你想用哪个术语描述蜥蟮流感诊断试验的反面？ 



若其人己 A 蜥蜴浼我：试驶锫票糸阀蚀^ 
吣櫬率*10%. … 


达些术语说的都是条件概车 


条件概率 即以- -什_»的发生为前提的另一件亊 
的发生 W 屮。價如*人 的试验 结果为阳性.他患蜥 
蜞流®的儿串有多大？ 

这是你一 «在用的两条断言的条件慨串化法： 


这是阳僅试發结票的撬車.前 
提备件是来患蟥 4 洗威. 


L_ ^ 这代表* »«. 

Pt+ID-l-PHL)*--^ 


这试腌结* 
姝概車.«提备件 
4 A 省蜥 4 洗*. 




r\ 


[♦ K )«1- P (.|- L ) 


这个 《[ 浪号象 示该表 
达式（幻《其. 


务忤 m 導钴法 - 

it 我们看看这个表达式中的毎个符号的 含义： 

以阳性试验结果为条件的蜥*流感概率。 

洗*- 夕 t -阳 蚀试 IH# 票 



贝叶斯统计 


你需要篝 I 



假阳性 

真阳性 

假阴性 

真明性 


符合这 / L 保概車的 
实标人 麩是多 fl 


P(+|-L) 在人们来應蟮蟠流感的条件下，某人试验结果为》性的槪率 
P(+|L) 在人们應 蜥蟠流 感的条件下，某人试验结果为《性的概率 

P(-|L) 在人们應 蟖蠕流 感的条件下，某人试验结果为阴性的槪率 

P(-|-L) 在人们来患*蟮流感的条件下，某人试验结果为 B 性的概率 


要弄清楚某人 患蜥蚴 流感的概串，其根本在于了 
解这些数字代表的实际人数. 


但首先要知进存多少人患 r 蜥蟮流感.然后可以 
用这些百分比来计算符合毎个组的实际人数. 


这是你想要 *6 獻言 | 




在试*锫票糸相 
前提条件下.患媾终 
洗戒的觀車是多丈 ？ 




基础概串 

1文的人患蜥蜴流感 

研究表明总人口中有1%的人患有蜥*流 
感一这个数据可以用来分析试验结果.从人类 
的角度上看，这个人数非常多，但从总体人口 
的百分比上看，这个数字非常小。 

I%坫基础概幸.在根据试验结果单独分析 
毎个人的情况之前，你就已经知道患有蜥 蟮流* 
的人口只有1%,因此* 础概 串又称作事*概幸。 



小心蒌础概车谬误 




在本例中，你对自 Li 患蜥*流感 W 串的判断 
宪全取决于基础 溉率， 由于 数据表 明基础 W 串为 
1%的人 〖:1 患晰*流*, W 么，90%的试验真阳 
性率看起来就不*么能说明问題了。 
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出现转机 



深入浅出敷据分析 











贝叶斯统计 


你患蜥蜴流感的几率仍然非常低 

这里省1000 

^ mnnmmmmmmmmmmmmmmi J 
nmmmnmnmmmmmmmmmmntT 
mimmmmmnmmnmmmmmmm 
nmnmnmmnmmmmmmmmmm 

.mnnnmfmmnnffi 而 nmmnnmnm 

mmmmmnmmmmmmmmmmm ttt. 
mmmmnmmmmmmmmmmmm I 

mmmmmnnmmnmmmmmmnm 

HHmm 画 

mmmmmnmmmmmmmmmmm 
mnffimnmnmnnmmnmnimmnn! 
immmmmmnnmmmmmmmmm 

冊而 mmnim! 

illlHIIIIHIliilliMMBHBIliWIlflllllllll 

广钃 MHNMHHHMm 腦 HI 賺 ! I 

^ - - -- - - - - - 

可太. 
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用简单的整数思考复杂的概率 


当你想像着自己在观察1000个人时，«已经从思考 
小数概 率转换为思考整数。我们的大 b 生来不揸长处理 
概宰数字，因此， 将溉串 转变为整数.然后进行思考. 
是避免犯错误的一个有效办法. 


搜鑲到新数椐后，用 K 吋斯 
规则处理蒌础概率 


这 f 嘀一蚩处 

理整 麩的工 A . 



信不信由你，你刚刚用了一次人们常用的贝叶斯 
规則，这是一个强悍无比的统计公式，有了这个公式， 
你就能用*础 W 中和条件 W 率估计新的条件《率. 


如果你想用数学方法进行计算.可以使用 T 面这个 
怪横怪样的公式： 


"1 阳蚀试腌#* 糸备 

件的蜥4洗獻 概奉. 


， P ( L |+) 


象澉* 車 （ A 病 曲人） 

P ( L ) P (+| L ) 



这个公式会得虫和 

前面一#姝答素. 


P ( L ) P (+| L ) + P (-) P (+|~ L ) 


暮础概車（来 A * 的人） 


供阳性車 



贝吋斯规则玎认反复使用 


贝叶斯规则是一个重要的数据分析工具，它提供了 


一种把新信息整合到分析中的精确方法， 


■'利 用贝吋斯規刺可 -I 
逐* 增加 Kj 信患. 


我的分析 ^ 


W 的 WW 

(*»«*) + («*»*) + (^) 
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第二次试验 结果 ： 限性 


医生上次没给你选更可 ft . 更先进 
的蜥蜴流感试验，因为收费贵那么一点 
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新试验的正碥性统 i 十值 




















贝叶斯统计 


•\动动笔 


让我们以试验结果为条件，用新试验结果和经过修正的基础 
概率算 一算你患蜥锡 流感的概率。 


_级_稱流感设 皤试验 

正分析獾吿 


若某 人已*蠘蠕* S. 试狯结果为 Bit 
的 撅車为 99%。 

若某人未患蟮蝠流感.试胗结果为 R 性 

记後.人.就 

♦你.将 t 脩鴣洗 



患病者数目 未患病者数目 


试验结果为阳性 
的数目 


试验结果为阴性 
的数目 


试验结果为阳性 
的数目 


试验结果为阴性 
的数目 


在试验结果为阴性的 
条件下患病的概率 


患病且试验结果为阴性的人数 
( 患病且试验结果为阴性的人数）+ 

( 未患病而试验结果为阴性的人数1 


第6意贝叶斯统计穿越第一关 187 









我患脩 *1 洗戒吣机会是 







故心多 J f 
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7 主难概率 



命 

信念数字化+ 

本 


虚拟数据未尝不可。 

真的。不过，这些数字必须描述你的心智状态，表明你的信念。主观概率 
就是这样 一种将 严谨融入直觉的简便办法，具体做法马上介绍。随着讲解的进 
行，你将学会如何利用标准偏差评估数据分布，前面学过 的一个 更强大的分析 
工具也会再次登台亮相。 




背水 投資公 司熏要你效力 

背水投资公司是一家商号，依靠在发展中 
市场谋求横糊投资賺钱。他们选择的投资别人 
很难理解，甚至很难发现* 



背水 'A •句在 这儿省徂多么•句， 


甚至这儿也嘈 


公司的 战略*味着他们对分析师的才千十 
分倚*,潘要分析师具备无懈可击的判断能力 
和良好的关系，以便帮助背水公司得到所需要 


这儿也唷 


的信息，制定妥善的投资决策。 


生 意倒是 绝眇的生意，可分析师们的纷争 
已经快把公司吵涛了——激烈的分歧使得人心 
涣敗，这将成为投资的一场 灾*， 




分析师们相至叫阵 


背水公司的分析师在许多地缘政治趋势方面分 
歧严重，这给打算根据他们的分析进行投资的投资 
人带来了极大的 问題， 导致分拄的问睡五花八门 • 



分歧所在并让分析师们达成共识，那躭太好了， 
要不然，最起码，要是你能以某种方法确定分 
歧，让背水公司的老板们认淸自己的方向，也 
算不错。 


让我们看看争吵内容 




动动笔 


看看分析师们发给你的电子邮件，这能帮你了解分歧内容吗 9 


发 件人： 背水投资公司离级研究分析师 
收 件人： Head First 
主題：越南之争 

在过去六个月里， 我一直 坚持向同寧们论证我的观点越南政府 
今年可能准备降低税收，我们的当地员工以及各种新闻报导都证 
实了这 一点。 

然而，背水投资■分析 ■ 团队中的其 他一些 人却似乎认为这个论 
点很疯狂，上面认为我是个梦想家，他们告诉我，政府的这种姿 
态，或者说角色I是■极不可能的 ■。行啊， 他们作这种评价有 
依据吗7显然，该政府正在鼓助外国投资，我可以这么告 诉你： 
只要税收 一降， 私有投资就会像洪水_样*过去，我们需要在越 
南扩大地盘，要赶在 …… 


今 A 只斜对这三个 (8 家玛？ 


这盎今析蚱*气 冲冲. 


发件人：背水投资公司政治分析师 
收 件人： Head First 
主題投资樓糊地域 a 言 

►價罗斯，印尼，越南。背水投资团队被这三个地方迷住了。可雄 
am 们的雜还不料鹏 7 财神 si 续 ㈣ 石油业， 
他们-向細;：俄罗斯下-季 ㈣ 0:祕空公帥可能性比不收 
购的可能性更大.越南今年有可能会减税，同时他们可能不打算 
，励外国 ® 尼今雜资生絲膽可赌比不贿的可能 
性更大，但这不会起太大作用—旅游业肯定会彻底拷台。 

要是背水 ㈣ 不抑-卽粒 卽理舰 对赖滋事者， 

恐怕就得关 . 








主 观概串 



每封邮件的撰写人都 用了一 大堆话来描述他们对各种寧件的可躯性的 
看法。列出他们提到的概率用词。 
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导致分歧的主要问 B 有哪些 

看来，4、政包括 6 个方* : 0俄罗斯下一#是4•会仆贴石油止？ 2 > 诔罗斯是杏会收购址 
航航空 公司？ 3> «南今年 是香会 减税？ *0 «南今專是4•会妓助外凼杻 眚？ 5> 邱尼旄潴 
止今卑是杏会 fc#t O 邱尼致庙是普会极贵4态旅雄？ 


每封邮件的撰写人都用 了一大 堆话来描述他们对各种寧情的可能性的看 
法。列出他们提到的槪率用词。 

他们姝用词嘀：可《. 姐禾 可*.可《性更太.嘀可*.可《禾.禾可 可试会 .責 













吉这么说，是 it 我们来评评#对谁错？没问 
看肴数据就行了。 


莠兰克： 别这些分析师非同一般.他们训琢有素. 
经验丰富，是正经研究那些国*的专家. 

乔： 对的，首席执行官说他们想要什么数据就有什么 
数据，他们能得到世界上最棒的消息.他们花钱买专 
有数椐，他们派人剌探政府消 .6, 他们还派人在现场 
做第一手调査， 

弗 兰克： 地缘政治学是•门很难琢磨的学问， 它预澜 
的坫单个事件，这类亊件没有大 量颊+ 数据可供进行 
an 羊细的预测-他们从各种* 道搜集 数据，据此进行 
冇根据的猜想。 

吉 w : 垃说这些*伙比我们精，我们其实没办法》 
他们解决分歧， 

乔：我们的数据分析摻进去只会让争论 E 激烈. 


邦 兰克： K _ 实，争来争去都是各个国家即将发生的亊 
情的•些假设.分析师们•听到那些表示可能性的字 
眼就心烦意乱.可能？大有机会？这些 话到底 是什么 
意思? 

吉》 : 所以你想»他们找 出更妥 当的字眼来表达他们 
的感受？嘿，这似乎是在浪费时间. 

典 兰克： 要找的 " r 能不蛙卞眼，而是 ii ； 他们的判断 a 
得 Si 精碗的东西， M 说这呰判断不过是某些人的主现 

信念…… 



主难概率体观专宗信念 


如果用一个 &字形 式的槪串来表示自己 
对某事的确认程度.所用的就是主现概率。 

主*槪率是根据规律进行分析的巧抄方 
法，尤其是在预测孤立亊件却缺乏从前在 
相同条件下发生过的亊件的 可斿数 据的情 
况下 • 



大家 •以 这种方式说话 • 


怛 底是 什么意恩呢？ 


、这喳數穿比今析件用子栊迷 
由己俅念的用词要鞴确得多 • 













»* 











分析师们答复的主艰概挛 



现在我们已经有所进展。 

尽管你还没有找到办法消除这些人的分 
歧，但进展是肯定的，真正的分歧已经浮出 
水面。 

从一些数据看来，分歧可能根本没那么 
大，至少对有些事情是这样* 


让我耵看看首席执行官时拉些 
数棍 的看法 …… 







首席执行官的困® 


酋席拔行官不硪白 
你在忙些什么 

他似乎并不觉得这些结果 
对解决分析师之间的分歧会有所 
助益。 



你可能该向笛席执行官 解释. 申述自己 
攫集这箜教据的理由…… 
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••比 这些愤怒的邮件更有助于分析吗7 


I 資公 •! 离) 


SSISS 

轵嗞 ； urs 

SKSKKM 


aast 六个 《■, n — ■■事 I 

a luian 今 >=i»« •鋒 <ut« 
9 IXU « ftKllHM>MIJC !A- 

o», «*s* ■»*■ a»fRK 

»认»8个 t*U*B 

«« 

«<!««««•• ti«. ■«)«*••» 
■n. aani«M»ou> 脅 .R 

• 只** !*- ». »•«!»««« 像 



l 77 % 81 %^ 72 «> 84 %^^^B^^.l:^ 

_i 

1 1111 ls%3% 12 %l2%s%£ , ^3%^f: 

ll^ 3 a%;J: 27 %s;i 5 s:^lls:^ 

I 

P^S^^^I^^^K 

p = i37%i 《 l^34%i 以 74%a36% 

I 

P^?i:r 7 :^^^^n:^l 


lr- 1 






为什么？ 




























每个数值用一个点表示, 
代表相应的主观概率。 
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弟■席故行官欣赏 
你的工作 


发 件人： 背水投资公司首席执行官 
收 件人： Head First 

主题 谢谢 1 

现在这东西的确大有帮助。我能看出，我们 
确实还有好些方面*要集中力董搞些更好的 
消息。 

员工们看来并没有真正的分歧，这真是太好了。 
从现在开始，除非分析师们用主观概率给我 
提供分析，否则我什么也不想听I客观概率 
也可，要是他们能办到的话>。 

你能帮我把这些分歧按照分歧严重程度排个 
队吗7我想知道囑个说法是最有争议的。 

首席执行官 


毎个人都能理解主观 概車. 但它远没有得 
到充分的运用_ 

优秀的数据分析师同时也是优秀的沟通者， 

主*槪串則 是一种 向別人精确地传达你的想法 
和信念的富有启示性的表达方法 • 

-动膊- 

用 W 种方法置度分歧和评定问題能让首席 
执行官一明就看出最严霣的分歧和问题？ 
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标准偽差 1 度分析点鸟 
乎均值的偽差 


你想使用标准偏差，标准偏差鼉度的 
是典型的分析点与数据集平均值的差距。 

数据集中的大部分点都会落在平均值 
的一个标准偏差范围内。 

tt 何一个 數糯集 妫太*今规* 锫票都 



一个标 * 鴒 * = 0.1 



标准偏差的单位取决于测最单位，在上 
面的例子中，偏离甲•均值一个标准®差等 F 
0.1, 或者说10%,尽管不少点都偏离两个或 
三个标准偏差.但大»分点都比平均值髙或 
低 10%. 

在此可以用标准偏差釐度 分歧， 主 * W 
串偏离平均值的标准偏差越大，分析师们在 
假设成立的可能性方面的分歧就越大， 


用 + HnSXT^ZO'u K 
卄 ■» 标准 


=STDEV ( 数据士围） 





a7» MH *9% «1« «1% «% »7% n% 92% MH 92% 88H VO% «» 91% 89» S1H[ 

UH, 40% 47% am ]?% 60S 47% <«« S9» 23% M% 7»% 70« 80« 67» 74% Il« 21H ]«<• 

3M» 11% 67» 7» » J0» 66* «1» U« «« M 46H «M* 3S» I5H 63% UH 22% 42% 1«* 

39» sm )3« 3a« 19H 19% J7H }3« IMt 10* 5«H 2S« ]m 35% im 19H 3}« «% 2»% J7» 

5% 28% 0% 24% 0% 18% S% 3H 12% 9% 2% 5% 1% 13% 5% 3« 0% 7H 6% SH 

77H BIH 85% 7SH 72^* ft4« 88% 69% 74% 91% 92% 70% 3% 61% 87% 70% 79% SMh Bl« 84^ 


你会用哪个公式计算说法 1 的标准偏差？ 


數譫已径禕 ft 值置..要鴒 
标堆僱差就可 ..I# 冷了. 


佚来 T 我/ 

www. headfirsllabs. com/books/hfda/ 
hfda_ ch07_ data— transposed.xls 
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主观 《串 


世上进《傻问越 


|o) :主观概率不算有某种欺骗性吗？ 

^ : 欺蹁性？它的欺碥性要比"的磽可貌-之类的 
含供说法低得多 .， 听别人说诺的人可能会在則人说的* 
里加入各种各样的含义，因此，栺定一个概•芈实际上是 
一 种欺碥 性小得多的传达个人信念的办法 .， 

: 我的意思是，当有人看到这些概皁的时候，难 
道不可能（抱歉，用了这个词1有这种印象给出概率 
的人 看上去 对自己倌念很肯定，其实他们心里并不 ft 那 
么肯定？ 

^ : 你的意思是说，因为教字是白紙黑字，所以看 
起來要比实际情况農得更有说服力？ 


问：正是。 

^ : 这个顾虑有道 a ., 但主现概率像其他教据分析 
工具 一样： 如果以欺骗为 B 的.那 么碥人 是很容 易的； 
但只要螭保客户知道你给出的概率具有主现性，那么， 
精 确地相 出你的信念.实际上对客户是个天大的 ■€ ■惠， 

1») : Excel 能画这些有小点点的奇特图形吗？ 

^ : 能 A , 但比较麻《 这些图形是用一个叫做 R 
的《序*的.里面有一个函教 dotchart... 你会在后面的 
幸节*«略到 R 的魅力. 
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迖条新闻让你抟手不 il 

分析师们的最初反应是深感 忧虑。 背水投资 
在俄罗斯石油业投资巨大，很大原因是因为大家 
对政府会继续支持石油业有共识，这一点你已经 
看出来了。 


雌1 

供罗醑下_*会补 K 石 ifcll!. 



可这条新闻会导致这些投资的价值大幅缩水. 
因为人们会突然觉得俄罗斯石油业出大问题了. 
伹话又说回来，这个说法可能是俄罗斯的一种策 
略，实际上他们可能根本不打算出售油田. 


动动笔 

这表示你的分析错了吗？ 


你该怎么处理这个新信息7 











工具正在发揮作用 

动动笔- 

\解考 

你大错特错了吗7 

今祈 •# 定没错.它正确地反缺了今祈4们用省限的据得出蜣 信念： 问题在子今祈晞们 
错了 一 没省嬗 由相信使用至規概率《係证 i 規概率 *6 正鵡蚀. 


现在怎么办？ 

我们需委®灰靖订金秕 i 规概率. 既达己 经省了史多史准确蜣信患.我们 46 i 观概車也 
省可** 基准鵡. 
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最好 选一种 能够把新信息整合到你的主观概率结构中的分析工具。 
你为什么选择该工具7 

实验设计？ 

诅计一种可 .. i 得刭更堆确麩据蜣实验嘀点 4. ( S 糸斯省的兮祈_冲都在评诂地婊事件. 看起束 
他们所兮祈的粵一备 數掂都 是規察數据. 


r^SI 


最优化？ 

没省可食46麩言數据！我们含过始最优化 工具# 是《试你手*省數言麩掂和想婁最大化和 
畢小化46麩 f 结*.而这靈没省 倍何* 优化信患. 


关观的图形？ 

美规蛛麩《«形总是《派上用场.一 里我们 蟑订崧 i 規觏率. •♦笑 想*一枨撕 (£ 彤： 《瞰 


前，我们需矣的是 诂提供 史可食 fcil 的工 A . 


假设检验？ 

«该检狳嘴定《在这种同 ft 中索挥作用.今祈4们可 " i 利用狠 试检骏推导出 唷共俄 罗斯动 
向蜣信念.《我们的工作是搞 ft 楚*數据会让人们的 i 規櫬皐 计么 文化.赧设检 验在这 
方 面蛛作用南禾明确. 

贝叶斯规则？ 

看起束嘀 * f . 我们也许《将每值今祈#的第一个 i 規概車作态基础攏車.闲贝叶斯规则处 
«这个斯信 4. 


216 深入浅出数据分析 






















贝叶斯规則是 修正主 难概率 

贝叶斯规甽可不是专门用来分析蜥*流感的！它 
对于主观概串也大有作用，通过它可以把新证据整合 
到针对假设条件的信念中。试算一下这个更常用的贝 
叶斯规則，其中 H 代表假设（或者基本 ft 串）， E 代表 

新证据。 


这是用表针4 甚人 惠撕 
/^4洗**率的公式. 

P(L)P(+|L) 

P(L|+) -- 

P(L)P(+|L) + P(-L)P(+|~L) 


已知证* . 

试备件<6概車.- 


P(H|E) = 


_在《 该成立 的备件 

下.证《出洗的概率. 


bP(H)P(E|H) 


P(H)P(E|H) + P(~H)p(E|~H) 

J 、 


*« 禾成 i 的概率 .. 


在《议禾成立 <6备件 
下.证* 出械 •*& 概率. 


使用贝叶斯规甽求主观 概串 的根本在干找出在假 






面对面 

攀華 


今 夜谈： 贝叶斯规 W 先生和直觉先生 


直觉： 

我不明白，为什么分析师们不让我另外再给一个主 
观概率，上一次我不是做得很好嘛。 


哦，谢谢你投我信任票，但我仍然对分析师得到我 
的第 一 意见后就把我一脚賜开不以为然. 


我还是不明白，为什么我不能直接给你一个新主观 
概中，指出俄罗斯将继续支持石油业的几串？ 


真的有人会这样想吗？当然，我明白有些人在计算 
患病概率时会用你，可对于主* K 串也是如此吗？ 


我猜，我得学会告诉分析师在合适的条件下 用你， 
我就是希望你多点儿直觉。 


別！哥儿们，太煩人了_ 


贝叶斯 规則： 


你当然很棒，我迫不及待地要把你第一次提供的主 
现 W 串3做基础 (K 丰。 


啊.并非如此！你依然非常重要，我们需要你提供 
更多的主现 W 率，指出我们在假设成立或假设不成 
立的条件下看到证据出现的几率， 


用我来处理这些溉串垃-•种严遒.正式的方法，可 
以将新数据*合到分析师的位念结构中。此外，即 
使分析师 意识到 自己的错误.我也能保 iff 不让他们 
对自己的主*槪串矫柱过正. 


不错，确实，分析师当然不必一冇新消息躭用我。 
但如果风险太大.他们就确实需要我。如果有人觉 
得自己坷能得了某种病，或者有人耍进行大额投 
资.他躭想用分析工具。 


要是你愿意，我们可以画1000幅俄罗斯形势图，就 

像上一章一样…… 






P(H)P(E|H) + P(~H)p(E|~H) 


下面这张电子表格列出了从分析师们那儿收集的两组新主观概率。 


佚来 T 我/ + 

www. heaMrstlabs. com/books/hfdaj 
hfda_ ch07 - new_ proba.xls 


在这靈«入公武.再 
敦*1/钻帖焓其他今析 
4數接. 


-个贝叶斯规则表达式，计算 P<S1|E>。 


P(H)P(E|H) 


1) P(E|S1>: 每位分析师针对•■俄罗斯宣布他们将卖出油田 ■ (E1 给出的主观概率： 

假设条件：俄罗斯将绝续支持石油业 （S1>。 


2) P<E 卜 S1), 每位分析师针对•俄罗斯宣布他们将卖出油田’ <E> 给出的主观 概率; 
假设 条件： 俄罗斯 将不缠 续支持石油业 （-SI)。 


这义是一个贝 





修订的主 观概率 



il%%%%#%%%%%%#%%%##%% 

8686929292948993889388899292949193726671 

( ST, F 

%%###%%%%%#%%%%%#%%% 

£~s1)61673954<5349544555s1566262402958555s936s 

(El 

%%%%%%%%%%%#%%%%%%%% 
47588M50326916497426 
Dsl)5555 6556 56 66121 

w 

%#%%%%%%%##%##%%%%%# 

32199838282182108919 

^. - 

w 

%%%%%%%%%%%#%%%%%%%% 
7891127282892^902191 
88899989898898899989 

123456789^^^34567890 M 

;;一 I 

\ 12.3 45 6 78 910ll12131415161718192021 :ljJJ 
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酋席飧行官完全知通该 
怎么处理迖条新信患？ 



背水《眘么•司首4执行官 


经过仔细 调査. 分析师们得出 结论： 
不管俄罗 斯是不 是真的 会停止 支持石油业， 
俄罗斯媒体都有可能报导出售油田的消息. 

因此，报导最终并未给他们的分析带 
来太大改变，虽然有三个例外，但在相同 
假设条件下，分析师们对于■•俄罗斯会支 
持石油业”的 新主观 《串 “[p(si|E)r 与 
他们先前给出的主*概串 '[P(S1)]- 非常 
相似. 


E 分賴_对了 K ? 
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8 启茗法 


凭人类的天性作分析+ 

命 



现实世界的风云变幻让分析师难以料事如神。 


总有一些数据可望不可及，即使有所能及，最优化方法也往往艰深耗时。 
所幸，生活中的大部分实际思维活动并非以最理性的方式展开，而是利用既不 
齐全也不确定的倌息，凭经验进行处理，迅速做出决策。奇就奇在这些经验确 
实能够奏效，因此也是进行数据分析的重要而必要的工具。 
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逖遏集 向市议会桡交:？报告 


邂遢集是由数据堡市市政府资助的 

个非嬴利团体，他们进行公共宣传.劝说 
人们不要乱扔垃圾 • 

他们刚刚把最近的工作结果汇报给了 
市政府，结果出乎意料. 



政府预期.邋遢集很快躭会惹上大 麻烦， 
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邋遏集碥实把镇上打杉得 
子子净净 


在邋遢集开始管理之前，败据邦布确实"了谓 
脏乱差，有些居民不珍惜家园.到处乱扔 垃圾. 
这破坏了数据邦布的环境和外*,可*遍*来了 
以后，一切都变了， 


要是市政府削减资金就糟丫.道遢集需要你 
帮忙告诉大家他们的活动是成功的，这样市议会 
就会继续提供资金. 




想出可能使用的计量方法完成任劣到底该从*里获洱散乱 
垃圾的 减小置 数据呢7 












计：■镄效 




解著 


到底该从哪里获得数据说明邋遢集的工作已经导致散乱垃圾 
置减小了？ 


可 .. i 硝飧运工把乱扔的垃坫和普通垃边今丹.楚后今别称耆：迷可”1在皺掂祁市这个 "i 
磕珙乱1著称的小镇上*置一瘙考 n 收羃埴级的地方.邋邏集做过这掸 吣计耆 了吗？ 


邋遇 集邑爱 i 十1? t B 
的工作效系 


邋遢 *11 •量了自己的工作成果，伹不是 
计量以上练习中所设想的垃圾量.他们另有 
一套： 公众 调査， 下面是一些«査结果， 



他们的根本策略是改变人们的行为 
习惯，让他们不再乱扔垃圾。让我们看 
看他们的总结…… 











公众问卷 

去年 

今年 

你在数据邦市乱扔过垃圾吗？ 

10% 

5% 

听说过通邋集活动吗？ 

5% 

90% 

要是你看见有人乱扔垃圾，会劝他们把垃圾扔进垃圾箱吗， 

2% 

25% 

你认为乱扔垃圾是数据邦市的 一个问 题吗， 

20% 

75% 

邋通集让你了解到严禁乱扔垃圾的貢要性了吗？ 

5% 

85% 

你支持市里继续 资助* 遍集的教宵活动吗？ 

- _ - 

20% 

81% 


他们的任务是滅少殽秕垃圾 1 


因答 •是- *6 比锏. 


而向人们宜传改变行为习慣的必轚性将减少 敝乱垃 
圾逢，对吗？这 是邋遢 集的*本立场，《 査结果 磽实表 
明公众意识有所 改籌。 

但市议会对此报告*受不 S , 你黹要帮助*遢集弄 
淸楚他们是否完成了任务，然后说脤市议会相倌他们工 
作有成效. 




邋通集的工作成果是否表明数据邦市的散乱垃圾最有所减小？ 
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动动笔- 
斛著 


数据是否表明敗乱垃圾置在邋遏集的努力下有所减小？ 


假办 省人相信报告中指出的人们侑念的致重会对袭乱珐谌+省彩响.那么獻据可《«够 
表明散乱垃边看在邋邐集的#力下嘀托城小.«4,麩掂耷身 . 13 .该到7公众規金 . iPil 
唷值何与嶔乱垃坫 看唷奚 的明鵡信患. 


计1 垃圾1不玎行 
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启发法 









数椐#市的骹沉垃圾结构 I 杂 


这是邋遏集的内部调査文件 • 文件记录了 
你有可能想计 ft 的散乱垃圾项 H • 



这是邋遢 集总监 对这个 
庞大的系统的解释.她还谈 
了这种复杂性对邋遢 * 的工 
作造成的彩响. 


发件人：邋通集总监 
收 件人： Head First 
主《_ 我们为什么无法计量 垃圾最 

为了计置垃圾置，我们得在所有联络点 （ 处理站、填埋点等1安排员工，随 
时待命。市里的工人不会为我们记录数据，因为他们已经够忙了。 

在联络点安排员工会让我们的费用变成市里给我们的费用的两倍，就算不干 
別的，光是计置散乱垃圾置，也没有足够的钱来完成。 

另外，市议会只关心垃圾置是完全错误的。 

数据邦市的散乱垃圾其实是一个*杂的系统，扔垃圾的人各种各样，垃圾种 
类各种各样，扔垃圾的地点各种各样，忽视整个系统而只关心一个变置是不 
对的 e 









无法建交和运用统一的 
骹秕垃圾计盪模型 

为了计量或设计一个最优化散乱垃圾控制 
方案而创违的任何模型都需要考虑极多的变量. 

不仅需要用常用的釁化理论来了解这些元 
素之间的相互作用，还要知道如何处理其中 -- 
些变 ft (决 策变置），以便使散乱垃圾量降至 
最低。 



躭算手头有所有的数据，这也是个麻烦 
事，何况你已经知道，要得到所有这些数据费用 
太髙。 


还_01 能让市 汶尝看到他 in 想看 
的东西 k ? 




吉尔： 乱七八糟.市议会要我们拿出没法拿出 
的东西， 

荛 兰克：是啊， 即使我们能够提供减小的垃圾 
置数据.也没有什 么用， 系统太复 杂了， 

乔 ：嗯， 这些数据不会让市议会满意. 

吉尔： 不错，我们的工作不只是为了让市议会 
满意，而是滅小垃圾 K. 

乔： 我们不能捏造咚数据吗？比如自己诂计垃 
圾置？ 

邦兰克： 这是个想法.但很不 "r 靠， 我息 思垃, 
市议会看来的确是 支 强千的队伍， 轚 垃我们 
捏造些主*败据来 b 充垃圾*数据，他们可能 
会翻粒。 

吉尔： 捏造数据宵定会让 is* 的资金泡汤， 
也许我们可以说服市议会相念结果的 
确是垃 圾遞: 减小的数据？ 

典 兰克： 邋遢集已经试过了.没看见布议会在 
对他们巩叫吗？ 

宙尔：我们可以搞个 if 估.除 f 公众*念，冉 
加上-些别的变*.也许我们该试着把能用的 
各个变量集中起来，然后再对所有其余变置进 
行主*猜测？ 

典兰 克：嗯.这也许行…… 




启发法 
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后芨法 是从盗觉走向最优化的桥梁 


你是凭冲动做决定，还是凭几个楕心选取的 
关键数据做决定？或是构建一个包含所有变最的 
模型，然后得出最佳答案？ 

答案可能是以上都对.而这些答案却代表完 
全不同的思维方式——认识到这一点很重要 • 


也许你不必用上 


直觉看到的 ft —个选项. 



直觉对今析# 


启发法看到的 ft 多个选项。 

(a*« J 


太 褲今思 《活劫#出酰在; 




•析件都尽孴《免体 HI 觉.《人幻 
诀速虞作出的 块定成 禾呢错兑坷 
教《作虫的决定 接接食 的是 直觉. 


毎当解决一个 最优化 问题.就会找到代表 
目标函数*小值或最大值的一个或多个答案. 

对干数据分析师来说.最优化可谓理想境 
界.要 fi 所有的分析问理都能确定无疑地获得 
解答.可谓顺风顺水。然而.大多数思维活动 
都是启发式的。 


你将用_一轉 fi 法处理 
物拟公術 N 騍》? 






启犮注(心理#定: JO 用一种更便子娌斛蜣属蚀代替一 
种难斛的.令人 曲或的 展蚀. 2. (计瀵机 科嗲定 ：50 —种 
决同《*6方注，可《会得虫正确答素. ft 禾係证得出 
优化答素. 



最优化能得出全部可选答案. 



有些心理学家甚至论述，人类 的一切 推理都 
是启发 式的，而最优化是一 种理想境界.只有在 
Nli 超规范的情 况下才 能发挥作用. 


然而，不管是谁. i_l 要打算迎战超規范的问 
题.躭做个数据分析师， W 此还不能 £• 掉 Solver. 
只是別忘了在分析工具 装条中 收藏构思合埋的启发 
式决策方案这个必不可少的工具. 


最试化 4今祈蚱 

味 》想境界 

違这置在 
•* 优化-鸪? 
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|o) :把一个无法保证得到正确答 
案的决策过程叫作数据分析，真稀 
奇。难道不该把这种亊叫作猜想吗9 

^ : 不能这么说！你看，数据分 
析的根本在于妥善分解问*、为教 
据套上适当的心 智模也 和統计模型、 
作出正确的判断，但并不保证次次得 
到正确答案,. 

1«):假如我的目标是最优化，可 
我稍稍试 了一下 启发式思考，感觉 
不错，难道我就说不上在坚持寻找 
最优化结果了？ 

^: 那样说很公正.要是手头有 
更好的、可行的最优化工具，多然没 
人想用启发式分析工具，但♦点是 
要认识到，启发法是思雉过 狂的基 
本组成部分，也是数据分析方法的 
基本组成部分„ 

1«):那么心理学对启发法的定义 
和计算机科学对启发法的定义有何 
区别？ 

^: 其实这两种说法非常相似_ 
在计算机科学中，启发式算法能够 
觯决一签问*,但人们无法狂咦这 
种算法能够无一锏外地得到正螭答 
案； 计算机科学中的启发式算法常常 
比那*能够保证得到正确答案的算 
法更袂，更 简单； 还有，往往一个 
问*只能用启发式算法来解决， 

1»):这和心理学有何必然关系？ 

^:心理学家通过实验研究发现. 


世上设《傻问超 

人们时刻在使用认知启发法_争相 
引起人们注意的*据实在太多.于 
是人们必須免经验作 决定： 为教众 
多的典 S 烃耠在人们的脑海里根深蒂 
困，总的表说.这些经脸的确很有 
效= 

| o ) :人类的思维过程与最优化过 
程并不相似，这«为明显^ 

: 各人有各人的看法对于昴 
呰塋定地认为人类是*性生物的人 
朱说.••人们不是以较全面的方式 
思考所有感官信息，而是使用收效 
星著但含 at 不清的 经粉法 «" 这个 
说法可舦会让他们*到不快,. 

I®):这么说，"大量推理都是启 
发式的_这个寧实说明•人是非理 
性的 . ？ 

^: 这要看你怎么龙义 a 性这个 
词如果*性代表这种 ft 力——以 
闪电般的速度处*海量信息的每一 
个教位、构建定美的祺曳利用这*信 
息、能够无可挑刹地执行模麼给出的 
建议.釋么.没譜.你是非理性的. 

1«):这真是对理性的离标准定义。 

^: 如果你是一台计算机，这标 
准就不算高 .： 

( o ) :这正*我们让计算机为我们 
做数据分析的原因 I 

^ : Solver 之类的计算机程序生 
存在认知世界里，这个世界的依据 
信息由你决定，而你对依*信息的 
选择 W 受制于自己的思蛾以及手头 


的教据。不过，只要有了这些依据 
信息， Solver 就能以完全理性的方式 
工作。 

|o) :又由 于一切 模型都是错误 
的，但其中一些是有用的，即使用 
计算 机计算 最优化问題，一旦应用 
范围扩大，也会与启发式算法颇为 
相似。所选择的依据数据恐怕永远 
无法涵盖与模型有关 的一切 变置； 
于是只得挑选最重要的 变量。 

^: 这么想 吧：數 据分析的根本 
在于工具优秀的*据分析师懂得 
如何使用各种工具调整教据.以便 
解决现实问題 .， 对于自己是否够理 
性.没有必要听天由命学习工具， 
灵活地使用工具，就能够完成大量高 
雎度的 工作， 

I®):但是，数据分析没法保证得 
到所有问 H 的正确答案。 

^ : 是的.没办法保证，要是你 
不小心忘记了这一点的话，就会出差 
错分析存在于现实与模型之间的 
預》1差矩是教据分析的一个重要内 
容，后面几幸将讨论控制*差的精 
湛技术,， 

1°) :所以，虽然启发法在我的大 
脑里根深蒂固，但我也可以形成自 
己的想法？ 

^ :—点儿也不错，对于数据分 
析师来说，真正*要的一点 是：明 
白这种现象会发生在自己身上 — 为此 
我们来试一下…… 




使用怕省树 

右边是一种启发法，描述了处理有垃 
圾潘要废弃这个问題的不同方式.规則很 
简眛： 如果旁边有垃圾箱，就把垃圾扔进 
垃圾箱，否則，就等找到垃圾箱后再扔. 

这种描述启发法的图形被称为快雀树. 
快是指完成这个过程费时不多，是指不 
需要大 ft 认知资源。 


我鬌处理食品包装袋 . 



市议会所黹要的垃能够估算邋 
遢*工作《置的启发法。他们现在 
的启发法不可行（我们必须说服他 
们相怙这一 点）. 同时他们拒绝接 
受邋遢集现在用的启发法. 

你能画一支快省树表示一种吏 
好的启发法吗？让我们和* 遢集谈 
谈，看看他们对更可»的决策过裎 
有何想法。 







简 化评估 



用啷喽重蓍进行 4、析《 够更兮 

&地椹述邋遘集的铕蚊？ 


是盃 有更简单的方 法评估 
m 遏集的成就？ 


使用启发法计歎邋遏集的工作指的是在下面 
这些变量中选取一个或多个进行分析，邋遢集总 
监认为囑种方法最好？ 


WtmiMESIB* 










画一支快省树描述市议会该怎样评估*暹集的成就， 但一定 
要加入 * 遢集认为重要的两个变置。 

最终的裁决 将是： 是否维续资助*遢集。 


凭人类的天性作分析 





这止集想妻的铱票. 


蠼 縷资助 


取消资助 


C A 票 (8 体坫边清理工认糸 
没嘀致票. 8彳》1«资助. 


启发法 



§6笔 
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§6 动 笔 


我办何我决邋邐 
集的工作 



着未他似手对邋*集根砵 
议矜趣 ……其他方* *6 经 
骚造*了这#的反庙. 


想想这位不开心的市议员如何形成自己的预期7 


A 他站裹 利机构4 
没用的东*、 


©定糢式都爯有启茗性 


固定模式必定具有启 发性： 处理固定模式不霱 
要大费力气，而且速度超快。嘿，有了固定襖式. 
甚至都不用为正在判断的事情拽集数据.使用启发 
法时.固定横式行之 有效， m 在本例以及大多数 w 
况下，固定楱式会导致做出欠缺推理的结论。 

启发法并 非百试 不爽.快而省的经验可能有助 
于找出某咚问«的答案.而在其他情况下，却先人 
为主地让你做出不恰当的判断. 


办敁丈致&此： 



我如何缠决 

通 i ■集？ 


M 探性地 

问一箜 问題。 


他们的回答 
感人至 深玛？ 

X \ 


皂发法有可能危险至极！ 




启发法 
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分析完毕，准备揸交 

启发法，手头数据，再加上环卫 
工人刚刚给你的这段 答复： 可以准备 
向市议会解释你的* 点了， 


公众不 a 扔垃圾的 
意识撮离了喝？ 

X \ 


这 Jt 你对布权会应 to 何铒姑 


*邐糞工作的 



B 体垃％ 滑理工认为 取消资助 

垃圾置减小了嗶？ 



‘是 • 的人16•&今麩. 










启发法 


为什么你不能直接计置垃圾置？ 


回答下列问题，这是市议会针对你对邋遏集的分析提出的 
问題。 


你能证 明邋* 集的活动有效果吗 7 





































着采你的分析打动 J 市议会的议员们 


备忘录 

回复： 通遢集及数据邦的乱扔垃圾问8 

市议会很高兴与邀遢集续签合同，这得归功于 
Head First 数据分析师的出色分析，我们认识 
先前对 i*S 集的工作评估中.没有充分全面地 
考虑数据堡的乱扔垃圾问题，低估了公众观念 
和行为的 S 要性。 你们* 新拿出的新决策过程 
设计得非常出色， 希望* 遢集继续坚持对自己 
髙标准严要求，今年，败据邦击议会将增加对 
邋遢集的资助，我们希望这有助干…… 



由于你的分析.数据堡会一重保持干净. 

谢谢你的努力工作，谢谢你能洞察 
分析这些 H 题.为自己能帮助数据堡保 
持 - r - 净整沽感到吧！ 







































直方图能说明什么？ 


数据的围形 表示方法不计其数，直方图是其中出类拔萃的一种。直方图 
与柱状图有些相似，能迅速而有效地汇总数据。接下来你将用这种小巧而实 
用的图形置度数据的分布、差异、集中趋势等。无论数据集多么庞大，只要 
画一张直方图，就能‘_看出_数据中的奥妙。让我们在本章中用一个新颖、 
免费、无所不能的软件工具绘制直方图。 




员工年度考评印将到采 

最近你一直在进行一些出色的分析项 
目.年度考评来得正是 时候。 

头头们想了解你对自己的看法. 嗔.署儿们这是一 

传备我#诂表. 

星巴仕分析师自评表 

感谢您填写本公司自评表！这份文件对本公司非常重要.将有助于决定 e 
您在星巴仕的前途， 

曰期 _ 

分析师姓名 _ 

请斟酌自己的能力发餍水平.■出代表该水平的相应 B [字.得分低说明 
您认为自己 霈嬰* 助.得分离说明*认为自己工作出色. 

分析工作的整体质*. 

1 2 3 4 5 


解释过往*件的意义和重要性的能力， 



你值得嘉奖. 


不是口头的，而是……再来点别的，真 
正的嘉奖。哪 种呢？ 该怎么实实在在地弄到 
— 手呢？ 
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最好动动脑筋想想办法，争取得到嘉奖。写一写该怎么回答 
这些问题。 


该对老板感激涕零，然后等着好事上门？只要老板认为你有价值，就会奖励你，对吗？ 


该给自己绝对正面的评定，也许还要吹嘘吹嘘自己的才干？然后要求大幅 加藉' 


你能否设想一个数字化的方法来应付这种情况？ 


第9意直方图»字的形状 
















不管你怎么回答上 一页的 问题，我们都认 
为你该要求加薪，毕竟，工作这么卖力不是为 
了锻炼身体， 


伸手要钱形式多样 




即使你觉得自己的情况与众不同，了解老板的基准期望可 
能仍然不失其意义。 
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i 方图 



第 9 韋直方囝数字的形状 255 








吉我们应该把这些数字忘掉，尽量多争 
取。数字不会让我们知道别人认为我们 e 得 
多少工资.老板心里有一个数字范围，我们 
要想办法争取上限值。 

乔： 我同意大部分数字都对我们没用.不会 
让我们知道別人认为我们 c 得多少工资。我 
也不知道该怎么摸清这 一点* 数字会让我们 
知道平均值，要求平均水平准没错， 

吉_:芊均水平？你准是在开玩笑.干嘛想 
着中等？目标定*点！ 

典 兰克： 我想应该 E 细致地分析分析，我们 
的信息很《分.谁知道这些败据会告诉我们 
什么呢？ 

乔： 我们必须保险点，要随大*，中等水平 
很保险，只要求出加薪 列的平 均值，然后要 
求加这么多«行了， 

吉姆： A 是缩头乌龟！ 

弗兰克：肴，数据*明职 员是否 提出过加薪. 
加薪年份.取员性 M . 这雜*对我们很有 
用，我们 H 要把数据《整成合适的格式就行， 
吉 4 f 吧， 髙手， 说来听听。 

莞兰克： 没问 B . 首先，我们得想办法把这 
些数字螫理 成更有 意义的…… 



最好汇总一下数据。数据太多則很难一口气 
看完，宥慊.除非先进行汇总，否 W 无法彻底领 
悟数据的 意义。 


先从将数据分解成*本数据块着手，有了这 
些数据块.就能*苞平均值或其他你认为有用的 
汇总统计值. 


该 MBI 甩着手 JL 总 
汶@数棍脲？ 



竄方田 



§6动笔 








你可 "I 将各列 
解成这妥數据垮… 


这个条袼農乐了 男信扣 
女性的羊珀加*檯度 ■ 


要求 

加篇者 


羊功 

加蘼椹度 


半功 

加 瀟椹唐 


§6动笔 
斛考 


2008專 


••逐可 .. 4 把这4•數*块与从其他 
列今鱗出未的獻籌块 ft 合在一起. 


你会把数据分成 W 几种数据块 7 


这 f 省一*例孑… 
你6己 *6 答靠可 It 

与此絝省|£剳. 


这枨 (6 计 篇了粵 种加备 

W 度的: k*t 次獻. 





















直方图 
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深入 浅出数 据分析 









逸禕崧加* 數糖 6 •会 i 
現一个太太的蝸奴*家 
»*64 依* • 从上…… 



o 


刑律 H 彬病结果卯冊? 
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盗方橙体 观每组数椐的 
发生频数 

直方 fflS — 种功能强大的图形，无论数 
据集多庞大.直方 ffl 都能 a 示出数据点在败 
值范围内的分布情况。 

例如，你在上一个练习中想象过的 s 形 
会告诉你有多少人得到了 5%的加薪. 


加* 麯數 

.-5% (成 攻數） 


崖方«爸我们 
极供太 耆信患 



这个查方围用图形方式 a 示出获得毎种 
加薪幅度的有多少人，还简要 垃示出 加薪分 
布情况. 



262 S 入浅出》据分析 


■这瑜出秸票. 


裒方围 

似年 很多人 螓加籍裼 
\ 廣都在这 个范® 啕. 


Jlllllu . 

I *!*!. 


« i ……》軸着起 
''来始鵡#*釓. 


另 -Alfil. Excel 的输出结果存在一些问 
牲： 区间（或 组距） 采用默认设 S, 结果X轴 
的数伉杂乱不齐，X轴上代表各个区间的数字 
应为整败，相比使用小数，这样的图更 M 于 
«察. 

-1 然了，你可以调整一下设1,让这些区 
间®接近你最初设想的数据表. 


不过，即使这个 ffl 也 有一个 严重的 
问题.你能指出来吗？ 








直方图 


疽方礅不罔 g 间之间的鉍 
D 印数椐点之间的絲 D 
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启动重要工具 


安装捋运行 R 



过输入 “Edit (你的数 据）” 指令，总是能 


成功地把数据转变成电子表格风格的图形. 


264 深入 浅出数 据分析 








将数椐加栽到 R 程序 

你要用的第一条 R 指 令是： 使用 s 
指令尝试加栽《深入浅出数据分析》 ( 
First Data Analysis) 脚本。 


: 产•妍软 

tv. headfirstlabs.com/books/hfda/hfda.F 


该指令会将 R 所需要的加薪数据加栽到程 
序中，加教过程需要连接互联网 • 如果想保 
存 R 会话，以便在断开互联网的时候璽新访问 
Head First 数据，可以輪入 *save. image ()". 


下栽好了吗？首先看看下教内容中的 
Employees (雇«丨 数据 框架. 輸入下 面这个 
指令并按下 Enter (回车）： 

獪入歙的名#.让 
«農承这个獻齲柚*. 


employees 


右边的输出结采鱿 &R 对指令的响应. 


«夺*®—个列条， 
其+包括麩 掮柢耜 
中的箝省行. 




在 R 中 繪入下 面这条指令，生成直方图_ 
hist(employeesSreceived, breaks-50) 


ti 


rsISfs!rs!;s!rs!! 

iifUSE 心 «lsEmtLSEilfU.SEsllMS{it!itlill«luAlsc 


<ijsssssssi 
s #lgJg!;sssl^ysglil. 


你觉得指令行中的各个因子是什么意思 7 解释你的回答。 















汶編®让仰得出什么 
结设？ 


























乔： 如果直方图是对称的， SI1 平均值和中间 
值会处于相同的位置——正中间 • 

莠兰克：对。但在这个实例中，右侧的小峰 
将平均值拖离大峰的中心.而大部分观察对 
象都位干这里. 

乔： 我在苦苦思考这两个峰，它们意味着什 
么呢？ 


莠 兰克： 也许我们该重新看看先前划分的数 
据块.弄淸楚这些数据块是否和直方图有些 
关系， 


乔： 好主意《 













动动笔- 
、乂 斛著 


先前划分的数据组对直方图上的两个峰有何影响？ 


可《会唷年限差别：例也. 2 0£> 7 年蚝加篇年坫值 可铋比 Z00 6 卑珀萆得多：述可《嘀蚀别 差別： 
男蚀的 加展早均馑可《 会高子 女蚀. 成反之; 所嘀的麩据都4规察麩掂. （S 此规察得 
出的所嘀共系不一定嘀窠铨 it 据押么唷说*力. 


1«):这么说，我们似乎能灵活处 
理直方田外形0 

^:确实如此。应该把创建 A 方 
图这_步骤本身视为一种解锋.而 
不是先于觯释的任何步《 

1«) : R 用于创建直方图的猷认值 

一般都 合适吗7 

^ : 一般是的 R 努力寻找能够 
最好地体现教 檐特点 的分区教目和 
坐标，但 R 并不*解所焓制的教*的 
含义正如使用汇总函教一样，快 
徒.«便地烩制直方图没什么不好 
的，忸在根*现察結果倣出言要结 
论之前，还需用合适的方法使用直方 
图 （ 并重新绘《直方 a ) ■ 以免忘 
记自己的观察目标和分析8标 

1 °) : 任意一个峰都是•铃形曲 

线”吗？ 


傻问越 

^: 很好的 《*, 通常. s 我们 

想到铃形鍮线时，指的都是正态分 
布或高斯分本，俚还存在一*其他 
类 S 的铃形分布，以及许多非铃形 
的分布形状。 

1»):那么正态分布有何重大意义 7 

^ : 只要数 *1 ■正态分有，大量 
高效而«单的 tt 计方法就能派上用 
场；大量的自 然教据 和离业教据都 
里现自然分布的形状（或可以以某 
种方式进行“特化”为自然分布的 
形状）。 

f ®) :我们的数据是正态分布吗7 

^: 你所许估的直方田肯定不是 

正态分布。只要峰的教 s 超过一个， 
就不能称为铃形。 

1^ :但数据中肯定有两个貌似铃 

形的峰 | 


^ : 这种形状必定有某种意义 
问*是，为什么教据分布 i 现这种 
形状？你该怎 么鎬清 楚呢？ 

| o ) :你能不能多画几张直方田描 
绘数据块的小组成块，然后分别进 
行评估？这样也许能弄清楚为什么 
会出现两个峰。 

^ :直觉正确，试试看！ 


你能不能分拆加簖數据，使两个 
峰分开.并解释存在这两个峰的 
原因？ 






直方田 


用数椐的孑集绘制疽方按 



你可以用整个数据集绘制一张貪方图. 
但也可以把整个数据集拆分成几个子集， 
后绘制其他一些直方图* 

加薪数据 


螯个集包含《多 
孑*.这 *5 ♦代表 


只要画出|个 5* 
praise (加 蘼） 
值.就嗜可*得 
到各种不间形伙. 


让我们创 建一批 直方图描绘加薪数据的子集。也许观察这些不同于原来的直方 ffi 会帮 
8 h 減清抑打 B _ h ㈣ 个*»料1»1+么。 SS 有-个《体的娜《«#过其他群 

楱句 体？ 

1) 首先，看看下面这个直方围指令，看滴 语法。 你认为这个指令中的各个因素有何意义？ 

hist(employees$received{employees$year *■ 2007] , breaks ■ 50) 

_根譫 ft 己的《謓在这儿 

e "洛下务个卤雀蜣意义. 

2) 模仿上面的指令，逐一执行下列指令。看到什么了？结果见下页，请进行解释并写下你的解释。 

hist(employeesSreceivedleraployeesSyear == 2008] , breaks = 50) 
hist(employees$received[employees$gender ■■ *F"1, breaks = 50) 
hist (employees$received[employees$gender "M"], breaks = 50) 
hist(employees$received[employees$negotiaCed — FALSE ], breaks = 50) 
hist(employees$received[employees$negotiated = TRUE], breaks = 50) 
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k 強化练习 


这些直方图代表不同职员群体的加薪情况，你能从中看出什么？ 




























I 強化绣习 


观察各个直方图，寻找答案，帮助自己了解哪些人能得到哪种加薪结果。 
你看出什么了？ 


hist (employees$received[en^>loyees$year == 2007] , 
breaks = SO) 


这个直方选挿了 ZOO 7 卑的加篇 fe 掂.基耷彤状与康束的直方 
(£) 梱间. 坐标则唷 ti 别一例厶最大的 fe 据块中仗嘀8个人 .佴 
由 子彤状 相同. 2 0<> 7 卑的蘚 体可铖与螫个 娜体項相间始特蚀. 



婧況与使用 2 ot > 7 卑麩据 时完令 一韓. 至选用完金一傅的蚩标 
焓*|麩据. 最起码 从这徂上看. 2 0(? 7 專和 zoos 專的精况暮耷： 



hist(employees$received(employees$gender — "F "] , 
breaks - 50) 

尽營这个崖方 (£ 的蚩 标嗜托禾间.我们却再一 攻看刊 一个大嶂和 
一个旗在太峙右边的小嶂.这个 (8 彤農示出女在这姿專 f 姝加 
蘼锖况 .（ S 此人獻众多. 



















直方图 
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大糴度加薪靠谈判 


加薪谈判有锣报 

对加薪数据的不同子集进行直方囝分析之后, 
看得出获得大幅度加薪全靠提要求。 

是否选择提出加薪（即进行加薪 谈判） 决定了 
人们的加薪结果分布情况。只要提出加薪要求.整 
个直方图就向右移。 


要是你对要求加薪子集做个汇总统计.就会发 
现，躭像在两条曲线上* 察到的 一样.结果十分宫 
有戏剧性。 




> summory(enployees$rais«loinount[einDj6yeesJnegotiated — TRUE]) 

Min. 1st Qu. Mediarj/ Meon 3p<f Qu. Max. 

6.90 10.30 ll.ee U .02 C 11.70 14.90 

> sd(employeesSraise_afflount[eirployeesSnegotiated TRUE]) 

[1] 0.9805234 

> suimiaryCeinployeesSraise_cunount[einployeesSnegotiate(i — FALSE]) 

Min. 1st Qu. Median Mean 3rd Qu. Max. 

0.400 4.300 5.000 5.006 5.700 8.800 

> sd(employeesSraise_amount[einployeesSnegotiated — FALSE]) 

[1] 1.001189 
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谈判要求加薪对垡意咮署什么？ 

叛 据表明 提出加 Jfi 可* 
会#来这郝的锫票. 


\x, 



既然已经分析了加薪数据，哪种策略会 
带来最好的结果就已经水落石出. 








































洞悉一切.未卜先知。 

回归分析法力无边，只要使用得法，就能帮助你预测某些结果值。若与 
控制实验同时使用，回归分析还能预测未来。商家狂热地运用回归分析帮助 
自己建立模型，预测客户行为。本章即将让你看到，明智地使用回归分析， 
确实能够带来巨大效益。 
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现在还没 a 收手的时候. 

你发现了如何得到更高薪的秘密，这是大家的福 t 。 
同事中几乎没有人用过 这个® 明的办法.对于那些没有 
要求过加薪的人，你能为他们做更多事。 

你应该做专门替别人争取加薪的生意！ 
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这里有几个问题，根据这几个问麵，想想如何依托数据分析 
创 建一家 商号，经昔你在加薪谈判方面的经验。 


若有一 家帮助客户分 析加藉 谈判的商号，你觉得客户会期望 
这家商号提供哪些业务7 


如果你在经营这一行生意，用哪种办法回报你的知识可谓公正？ 









广而吿之 




你想依托 W 种数据分析方式提供薪资咨询业务？ 


若有一 家帮助客户分析加薪谈判的商号，你觉得客户会期望 
这家商号提供哪些业务？ 

进行加篇该判时.人们需要各种各韓妹 帮助： 他们可《想知道也何着装.也何站在老钹 
螓立场上想冏趙.也何柑辞.诂也此真.《嘀一个蜂的间 该委茁加多少 ? 


如果你在经营 这一行 生意，用哪种办法回报你的知识可谓公正7 

害户会希 f 烚你一*激助. .. i 确係他们从你这儿得剎的方索怵够奏鈥.既鈹办此.也累他 
们体计行穿# 省阱 新获.&何不从中柚 fe —定比例的崧处费呢？这饵一東，他们的加篇楢 
度越大.你的激励也《太.你绝禾会*他们的 f 儿. 
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摘等圬刻……加薪 i 十萁器 r 

人们想知道该怎么提要求，还想知道提了以 
后能到手多少。 

你需要-•种算法。 



这个其注真《一个块*•过 杻. 指 
/虫 禾间委氺聲象的禾间秸票. 


现在你已经万事供备.可 以创让 
决策汰程 侬助人 们获取满意的加薪。 


加薪计算器 

—— 

你告诉我期 a 
我备诉你收获 


〜这《是你的*标产品. 


v 人们将爸 

此曲钱 f 




T, 


其域 糸 了完成 甚个计 Jf 而抚行的位何过《.在蜂例中 .你， 
在其《中加入计箕钵*——妻氺加麇《度.楚后通 过一’ 
廉葙测窠标加蘑椹度.这姿 步蠊都 乇啷喽呢？ 








必须进行預澌 


迖个萁法的玄机在子预谢 
加薪幅度 

预测是数据分析的重头戏， 



^ 

I 可能需要预测的问 H : 

I ■ 人们的措施 
■ 市场动态 

■ 貢大事件 

■ 实验结果 
■ 数据中未体现的资料 


让我们观察部分数据，#看要求 
加薪的人都提些什么。你能针对各种 
加薪要求預*加薪结果吗？ 


不能不问的问 B : 

■ 我有足够的数据进行预*吗7 
■ 我的预测准确性如何7 
■ 是定性预测还是定置预测7 
■ 我的客户能顺利利用这个预测吗 7 
■ 我的预测有何局限性？ 
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回归預测 










世上没布 傻问超 

1°) :不能直接把两张直方图 •加 fo ) . 可实际 加藉轘 度和要求加薪 | p ). 明白了。既然如此，如果得 
在一 个坐标中吗？ 《度确实非常相似，对吗^ 到了这些倌患，我们该怎么利用呢7 


^:完全可以」但为了进行清晰^:垂然了.在计量方法上很相^:问得好，是应该关注最终分 
的比较， 两 张直方 图都要体现相 B 似： 都 用的是 菥水的 百分教但你析结果，那是你的智慧产品，可以 
的内客' 例如，在上一幸中用多个并不是特别想知道每种变量的分布卖钱：你需要什么？产品将是什么 
数 据子集绘制了大量直方图，用这 情况， 而是想知道对 于个体 来说一样子？但首先，你需要用困 形比较 
呰直方图进行相互比较即可， 个 变量与另一个变量的关系. 这两个变量 













回归 
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| o ) :我什么时候能使用散点围 7 

^: 尽量多用，这是一种从多方 
面展现数据特点的快捷办法：只要 
你的教据涉及两种变量，就该考虑 
使用教点图。 

1^ :这么说，任何两种变置都能 
同时放在散点图中？ 

^:只要这两种变量成对出现并 
描述了数据中隐含的人或事就可同 
时放在散点由中.在本例中，教# 
库中的每一行都代表一名员工要求 
加薪的一种情况，而每位 s 工的情况 
又包括实际加薪和要求加薪两方® 


世上没《傻问越 

fo ) :我该以什么为目标观察这些 
图呢？ 

^: 对于一位分析拜来说，散点 
图的根本在于寻找变量之间的因果 
关系例如，如果要求高造成加簖 
低，就会在歉点图中看出这两种变 
量之间的关系教点困本身仅農示 
出关系，要说清原因还 需要做 更多事 
(对于初学者来说，还需要解释为什 
么一种变量会决定男一种变量） 

| o | :要是我想比较三组数据该怎 

么办？ 

^: 你完全可以在 R 中创建 ffl 


回归 

形，对两个或两个以上变量进行比 
较在本幸中.我们将使用两种变 
量.但你可以通过三维散点图和多 
面板网格图绘制三种变量：如果你 
想体猃一下多维散点困，可复制并 
运行一* cloud * 教的实例，参见 
help ( cloud ) 的帮助文件,， 

1°) :那么我们何时开始观察二维 
散点图上的加薪数据 

^: 马上开始这里有一呰預先 
编制好的代码，可以为你发掘一呰 
更新.更具体的教据并刽建一张称手 
的*点图未吧！ 


邐 


代碚 


在 R 中运行这些指令，生成一张散点围.体现 

出*求加薪和实际加薪的情况。 


4行这个《令的时候一炙 
妻 遠接利 (S 精阕. SS * 
从用上技馭數掮. 



employees <- read.csv("http :/ /www.headfirstlabs.com/books/hfda/ 
h£da_chlO_employees.csv", header=TRUE) 0\ 

/ 这 个雅令 户.加 lUi 


, head(employees, n-30) 




Kll . 本 i * 秸系. 


这个指令将農示數据啕 
容 看一看总唷崧处. 


这个*今黑乐嶔点*. 


运行这 些檷令 会出现什么结果呢？ 




认识败点图 


用骹点搀 fcf : 餃两种変1 

这张散点图上的毎一个点代表一个独 
立的观察 对象： 一个人， 

和直方图一样，败点图是另一种用于 
展现数据的快捷.经典的办法，它 a 示的 
是数据分布情况。但和直方图不同的是. 
»点图显示两种变置。散 点图显 示出*磨 
结果的成对关系，一张好的敵点图可以是 
原因说明的一个组成部分. 


麯 

I 


这值名兄提了 7%.却加 
720%.他脅 吏抽 tf 妻. 


「曇 


代碚 


成7右 

边的鈑 Aifi. 


plot («mployeesSreque8ted[employ«esSne90Ciaced">TRUE ), I 
employ«eaSrflceiv«d(ainploye«sSn«90ttat«d H TRUE]) 


辦 


、 head# 令将農 
彥下列 數据. 


这就是 head« 
令 的谕； k«#. 


心 1 」 



head 指令是查看 
W 加裁的靳鞦拢 

的诀捷方注. 





?s:ii:il 

rf …… 
lziirj 
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回归 



同时. 这蚩点 

条示數据 /* 中 
埘省该判委 



wws 回归預瀾 









这 4*< i * 测依蚂？ 


疽线能为窖户指明 D 标 


-条 R 穿败据的线的确 - f 能垃_ •种 W 效 
的預测办法， W ## 我们一 I [在考虑的算法. 


如果这条线是正磽的，你躭有可能得出 
算法中的未知部分。 


V 这备供 是禾是 
。 袅必一点 7 


这个中间计算 w 分可能正是一条 a 线。 
只要画出-条线,就可以取••个要求值,然后 
在线上找出与实际值相对应的点。 





为了想办法 S 出正确直线，为什么不利用散点■回答关于个 
人加薪幅度的一个特定问题9实例如下。 








曝 


动笔 - 
v 斛著 


如何利用散点图确定要求加薪 8 %有可能得到什么结果 7 


箕一其你正在观察吣要彤加 蘼范® 阄®的各个 A 的实际加篇半幼值.也票所蚬察的 K 


鈾麩值 （委杰 麩偟）糸8%左右.则似李 Vtt 上的相应点46 麩值 也凑 8 %.看一看下面这 


这个巨城+的各个点的 5 

‘在 7. 5%至 8. 5%之用. 


振 (B. 


个要 * T > 加* 
8%«人都得刊了 
8%左右姝加廉. 


如果观察一下整个X轴上 
的各个区间内的实际加 
薪平均值.结果如何呢？ 


这是*求加 4 S 
«%的员工. 


这是实标加 
篇 8 %«员工 
场V 值.一^ 


如果取 8 %范围（或 区间） 内的各个点的实际加 
薪平均值.則结采约为 8 %，从平均情况看，要求加 
薪 8 %,則实际加薪 8 %。 


这样就解答了一个人群（即要求加薪 8 %的人 
群） 的加薪问題。其他人的加薪要求則不一样. 











使用乎均值搀形预测毎 
个 g 间沟的数值 


你已经一不小心■出了这条线. 


真的，画一条线把平均值图中 
的点连起来一这正是你所寻找的 
那条线.利用它可以 预瀏毎 个人的 

加薪情况。 


这喽立 4#据各种加薦妻 
的实陈加薯 獻值. 


ft 们用这*点《»要堪加》 
8%可象的锫系. 


珍归线预测出人们的实 
标加薪幅度 


这就是它一迷人的回 归线. 

Isl 归线躭是最准碗地赏穿平均值图中的 
各个点的直线。你即将看到.你不仅需要为 
图形画回归线. 

回归线可以用简单的等式来表达，通过 
该等式可以预测某个范围内的 X 变最对应的 Y 
变量。 



。游 


世傻问越 


| o ) :为什么叫回归线？ 

^: 犮现这个方法的是英 B 科学 
家高尔《爵士 （ 1822-1911 ) ,当时 
他正在研究如何通过父杂的身高《 
測儿子的身高,，他的数据 S 示，从 
平均情况看，鎂个子的父杂会生出比 
自己高的儿子，而高个子的父素会生 
出比6己鎂的儿子。他把这种现象 
称为“甸乎均教田归”。 

| o ) :听上去挺玄乎。似乎回归这 
个词更多是在讲髙尔顿对父子身离 
的感受，而不是有关统计问麗。 


^: 没《回归这个词的历史意 

义更甚于分析启示 意义。 

|o) : 我们一 直在根据加薪要求预 
测加薪结果。能不能从加藕结果预 
澜加藉要求呢？飯不06从 Y 轴预*X 
轴呢 

^ : 当然能，可如果邺样的诂， 

你所的就是过去的事情如果 
某人告诉你*的实际加薪幅度，你 
就能預出她的要求幅度，重要的 
是，无论研定什么，都要絷持进行 
实际检查，确保能追踪所研究的对 
象的意义-_ «刪有意义嗝？ 


|«):我该用相同的线从 Y 轴预测 
X 轴吗9 

^ : 非也。回! )3 线有两种：已知 
Y 求 X. 已知X求 Y. 想想看，平均值 
图有 两种： 每张田代表两种变量中 
的一种变量的乎均值,、 

r °) :回归线必须是直线吗？ 

^:不一定是直线，只要有回归 
意义就行非线性 田知 是一个更为复 
杂的奇妙 钡域， 不在本书讨论范围 
之内 




回归 
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是否线性相关 


涵归线对子爯布线性相兵特点 
的数提很布用 


相关性即两种变量之间的线性关系， 
如果要呈现线性关系.敝点图上的点就需 
要大致沿着直线分布。 



这铱#:点®上的各个点完金 




相关性 - I 强 6] ■弱， 这可以 用相关系数进 
行量度，相关系数也叫做 r (可别和大写 R 搞 
混淆了，那是个软件程序）.为了让回归 
线发挥作用.数据必须显示出强烈的线性相 


r 的范围为 -1 至〗，0表示无相关性，1 
和 -1 表示 两个卑 量宪全相关， 


你手头的加弒黻棍 
出线性相关性 HH ? 
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回归 


傻问题 

|o) :可以看出，相关性为1或 -1 高吗？足以 tf 实我通过田归线得出人是否反复重复了你的结果？做好 
就有充足的理由使用回归线。但相的结论 吗？” 解释现象的准备了吗？如果_切都 

关性低到什么程度算太低呢 7 . 准备就故.可以说你已经通过严密 

1°) :我怎样才能断定数据为线性的分析证明了某件事，但说证实就言 
答: 只需根据具体情况尽量作出分布？ 重了 = 

最佳判 W 若使用田归线，«总是可= v 

以通过相关系教进行定性判斯 ^ :你 该知道•有一呰特别的: 散点图中将放进多少记录？ 

, 计工具可以用来定量分析教点图的 

r ®) :可我怎么知道相关性低到什线性■但 通常也是安全的. ^: 和農方 田一样，教点图是一 
么程度算太低呢？ »- 种分辨率很高的显示方法，只要格 

$ n :如果我展示出两种寧物之间式正螭，可以在 a 上飧制成千上万个 

爸: 正如对待一切純计和教据分的线性关系，是否说明我以科学的点 飫点 田的高分辨率属性是其优点 
析问* 一样，想一想田归是否有意方法证明了这种关系9 之一。 

义 .， 任何统计工具都不会无往不利 . = 

但只要娴熟地使用这婆工具，你就 *«* :未必■.你只是指定了 一种在 
会知道它们能让你在多大程度上接教学意义上真正有用的关系.但这 
近平均值。调动你的一切判斯能力种关系是否乃有内情却是另一个问 
田答这个 W*: “这个相关系教够 你的教*廣 量衊实 好啕？其他 
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你熏要用一个等式迸行 
鞲碥领测 


利用线性方程可以对直线进行数学表述。 


V 即 VI * 上的值.在蜂例中* 
要《测 的值： * 标加瀟 ( I . 


«狎《軸上的值.在瘅俐中& 
己知的 值： 要求加薦值. 



你的回归线可以用这个线性方程表示， 
只要知道过去的加薪数据，躭可以在X变量中 
代人任何加蒙 驀求, 继而得出泫要求对应的 
加薪预 测值。 


你只需要求出数值 a 和 b, 也躭是所 W 的 
系数即可, 


a 代眾 y 轴恭陡 

线性方程右边的第一个变量代表 Y 轴截 
距.即直线与 Y 轴的交点， 


这就 4 VM *®. 

如果散点图上恰好有一些点落在 x = 0 范 
围的周围，就能找出该区间的平均值点.我 
们没有这么幸运，要找出截距恐怕还得多费 
点儿脑筋。 















CHIn0 

dlu9 】 'D(D>939J 的 s a)a)AOQ.LUa) 



回归目标 


让建一个矽归对象 

如果希望根据一个变置预_另一个变 
*. 只要将后者提供给 R , R 就会一口气生 
成一条回归线. 





实 现这个 过程的 基本由 数叫做 * lm ". 
即英文线性模 型这两 个词的首字母组合。 
毎当创建…个线性模型. R 就会在记忆库 
里创逮一个对象. 这个付象 H 冇一长串* 
性，其中包括回归方程的 系数. 


这就是 K 刳建 *6 供蚀 
根型的属蚀列 


/} ■心！ 


任何软件 節无法鹨别回 6线 ft 否有用 

R 和你所使用的电子数据程序能够神 
逋地生成回归方程.但是否能发挥这 
个回归方程"以 一个变 置预*另一个 
变最" 的作用却取决于你。创建无用.无意义的回 
归方程并非难事。 
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回归 


设归方程乌殽点搀密切相兵 





既然如此.加薪计算 Hft 什么样子呢？ 
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加薪计萁器的箕法正是 
©扫方我 


通过 细心观 察过去提过不同加薪要求的 
人的谈判结果，你找出了 •个回归方程.可以 
预测给定加薪要求的加薪结果。 


你的害户将用这个方 ® 




表计龙 《期加瀟水年. 


加薪计算器 

— 

攫出嬰求会得》什么结果呢？下而这个方 
程会 回答： 

y=2.3+0.7x 

其中 Xft 饜求額度. yft 預期得费的額度。 


对于正在为如何谈判 S 求加薪而犯愁的 
人来说.这个方程意义非凡.这是根据过去成 
功地向雇主争取到更多蘄水的 其他人 的数据 
得出的可靠的分析. 

使用这个函数对于 R 来说只是简单的算术 
问埋。假如想 预测要 求加薪5%的人能够期待 
的加薪，可用下列 代码： 


*5 (fPSfg ) …… 


你46 審户碲 舞¥得 


列筹子祝太子 


水年的加*. 


要 屯加麇 
S% 刺®期加籍5.8%. 








傻问题 


1») :我怎么知道人们为明天提出 
的目标会不会和今天已经得到的结 
果相似？ 

^: 这是回归分析的一个大问 

不仅要问“明天与今天会有几 
分相似？ ”，而且要问••要是明天变 
个样，我的业务会怎么样？ ". 答案 
是一你无法知道明天是否会像今天 
一 样，， 变化傘免会发生.有时还会天 
羞地别。发生变化的可能性大小及其 
意义取决 于问題 类型。 

|»):为什么会这样？ 

^: 噥，对比_下》疗數据和消 

费者僞好吧,，人体明天突然改变生存 
方式的可能性有多大？可能性不是 
没有，尤其是环境发生突变.但可 
能性不大；消费者偏好明天发生改 
变的可能性有多大？你可以打*，消 
费者僞好会改变，大大政变。 


:那为什么还要劳神作预澜呢9 

^ : 举个例子，在网络世界里， 
优秀的 01)3 分析能在一段时间里产 
生巨大利润，哪怕明天就失去預 * 
能力也没关系.想想你自己的行为 
吧，对于一家在钱丰店来说，你， 
不过是一个教据集 

|o) :挺郁闷的。 

^: 并非如此一这说明书店知 

道如何为你提供你需要的东西你 
是一个教*集.糸店对你这个教据 
集进行回! (3 分析，預测你要买的书， 
除非你的品位发生改变，否«这个 
預测一 A 有效.若你的品位变了， 
开始买其他劣藉.店就会再次进 
行分析.从而获取新信息。 

1»):这么说，要是外界条件发生 
改变，回归分析不再有效，我就得 


^ : 再说一遍.这取决于你的问 
题类型要是你有充足、定性的理 
由相信你的回归分析是正确的，那么 
有可能永远不需要改变分析, .. 可要 
是你的教据不停地变化，那就应该不 
停地进行田归分析并善加利 用：若 
@归分析是正确的，你会 得益； 但 
要是现实改变、@归分析失敗，也 
不至于影响你的业务」 

|o) :人们不该看见别人加多少薪 
就要求给自己加多少薪吧？应该认 
为自己值得加多少醏就要求加多少 
薪吧？ 

^:问得 很好， 这个问*其实是 
你的部分心智 棋型，坑计方 法无法 
判断你要做的事是否合情合理.对 
于定性 问題， 作为分析师，你需要尽 
最大努力进行评估，，（不过直截了蛊 
的田答是你 fc 大轜 度加薪！） 






你给这两位首批客户提了什么建议？ R 为他们算出来的 
预期加薪是多少？ 



计么禾这个麩目 


0 泠 夺。 

U 


我豁出去了.祆妻兩值數 


你可*选捭*体麩客 


更爸激进的 加瀟要 氺是》5%. 


3%. 


加4委求可..1*圭15%, 


來看看结果 
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你的加薪计萁器浚有蔟 
i 十划行搴…… 


人们纷至沓来，请你提供建议.你顺利地 
完成了第一波业务。 


然后，电话铃晌了起来。一些客户对结 
果欢欣雀跃，另一些却有难言之隐！ 



这东*史蚨了7 


: W 娜器 



y=2.3+0.7x 


你的客户是怎么执行你的建议的？那 
些闷闷不乐的人有什么不对？ 

欲知后事如 H. 请听下回分解…… 








































ff 误差 



肴 ♦ 

+合理误差 


世界错综复杂。 

预测有失精准并不稀奇。不过，如果在进行预测的时候指出误差范围， 
你和你的客户就不仅能知道平均预测值，还能知道该误差造成的典型偏差， 
指出误差可以让预测和信念更全面。通过本章讲授的工具，你还会懂得如何 
控制误差及如何尽置降低误差，从而提高预测可信度。 
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你的加薪预测箕法 
傲了计么？ 


奧妙何在？ 


1动动笔- 


对开页的各种说法是定性数据，说明你的回归算法的有效性。 


殍人 ff 啲 itil 看上去雄應不间. 


你将如何给这些说法 e 类 7 


加薪计算器 

— ^ 4 ^ — 

提出X种加薪矍求后会得甕什么结果呢？ 
用下而这个方 S 求出 答窠： 


y=2.3+0.7x 


嬰求籲度， y 是期 ff 獅的籲度. 














动动笔 - 


斛奢 

各种说 ii . - 


你从性质方面仔细观察了客户对加薪预测算法的反应。结果 
如何？ 


4*7 I 我16加 *1 •虚扣 其*象16 —镇 一#.我和你 j 
说. 4太神 7. 体脅* <** 种天今.体让表螓#»太 **• 

tm. _ 

t 

〜一这一值正中 目#! 

AHt * 兴. IK 加廉轜《光》料<1 後 7 
o.sX. «4 A * 可*.我 1 金_馎.承该 
4承会加这么 多*. 

\___这一值蛄加* 轜度#近預 
*. «禾完全吻合. 


定蚀地看.省三种暮耷的反右 真型： 蓽一种是所 
得锫票完金符合顸測傖：$二种是斯得锫票畤嘀 


谪差.《仍《接近预恻值：其中唷兩值阶得结票 
该 差巨； fc : 而最后一种呢.除《省 一大鑕 孑人都 


记禾仿他们提过竹么. 4•刺这个结系恐馆对你闲 


这一值本當见. *4 对 
这 #* 说 ; i 下秸 论. 


窖户组成 


记住，回归方程预瀾的 S 人们平均得 
到的结果. a 然，并不是毎个人都能和乎 
均值一样， 










让我们再看几个客户 反*。 下面这些反 a 比前面几个反镄稍微特别_点。 

把要求加薪和实际加薪的情况■在一张散点图上，用箭头指出下面这些客户在 散点® 上 
的位置。 


票加了 》0%. j \ 票加了7%. j 

O 0 


用蕾* « 出这*人在 
叙立 (6 上曲 值置. 










要求加薪之 5 幺的宗仗 
不在模型范谲沟 


用回归方程预测数据范围以外的数值称 

为外插法。小心外插法！ 關好线播行用 i 远。 



外插法与内插法冇所不同，内插法对数 
据范 M 内的点进行预测，这正是回归法的本 
来 目的。 内插法很准确，但使用外插法《得 
小 心了. 

人们随时都在使用外插法，不过，如果 
打算使用外插法，就满要指定附加假设条 
件，明确表示不考虑数据集外发生的情况。 


- •藥梦动膦一 

要是 有一位 客户想知道要求加薪 
30%会得到什么结果，你会怎么回 
答他$ 





如何对待想对数椐笵谲从外 
的情況迸行预谢的窖户 


根振《设进行 預瀏: 



世上没*傻问越 


|»):到底在数据范围以外发生哪 
种情况会引发这样的问題？ 

^ : 在你所用的教据范 a 以外， 
可能根本就没有教据就算有教据， 
也是大相径庭 这呰教 据甚至可能是 
非线性的 

1 °) : 但我不一定要把所有数据点 
都放在数据范围内。 

^: 没错，这是数据质量和柚 

样问* 1. 要是你用的不是全部数据， 


而是柚样教*.釋么就要磯保这* 
柚 样教椹 能代表整个教据集.从而 
能移据 此建立模《 

1^ :考虑在各种假设的、纯推理 
的条件下发生的情况难道是多此一 
举吗7 

^:非也.肯定座该考虑但这 
*要训练，磯保你对佴设情况的想 
法不会影吻到你对现实情况的想法 
( 及 行动） 


| o ) :对未来进行预澜不算外插法 
吗？ 

^: 是外褊法.但这是否会带 
来问*則取决于你的研宄对象你 
的现察对象会在未来发生彻头彻尾 
的改变还是相当稳定？宇宙的物理 
定律可能不会在下个星期发生巨变， 
但证券市场的各种关系却有这种可 
能考虑这些问*将会帮助你懂得 
如何使用自己的模« 


误差 


千万要对模设保持戒 心。 

观察他人的模型时. 一 定要想 一想他 们的假设有何 
道理.以及他们是否忘记了某种假设。不合适的假 
设会使棋型完全失效一这还算是最好的 结果； 最 


坏的结果是具有危险的欺《性。 


洚立棋犁 

ffi irir 隹达―逢寧杆对扣 蘑计箕 《的诹 
Wg 要夫茅 个体谀 JE 碌，食51起褀轚衣 
生押种取实？ 



閉 ，内， 几年 織济咖 大麵.可今年•的钱 


在我们拥有的数据范围内，所有的加藉工作都由同一位老板负 
贵，但他离开了公司.这个工作由 另外一 位老板接管。 


你的谈判方式会对加蘅结果造成重大影响。 


各个点在20%~50%范围内的分布情况与在10%-20%范围内 
的分布情况看起来很相似。 


只有离个子才要求加薪。 
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洚 豆榇型 

朱 irrw 达一 连莘針 对加 0 计算 

要龙莱个#珙疋碌，金51起移 


W 4 诼谀，要龙莱个售 
轚英生笋种玖实？ 


## : 


在数据范围内，几年来的经济效益都大致相同，可今年賺的钱 
少多了。 

今卑的年幼加蘼幅康可袖会下挣.構型可《失放. 


« i 这傅的话你 的金意 
就 5 t * 了.蜍《得利嗜 
共这个斯老的軚据 I 


在我们拥有的数据范围内，所有的加薪工作都由 同一位 老板负 
贵，但他离开了公司，这个工作由 另外一 位老板接管。 

斯名钍 可《 会嗜禾 间的想 si . 也许会雅 fc 银型. 


你的谈判方式会对加藉结果造成重大影响。 



你孚灰改省英子办坷该 

判妻钱 的獻掮……稹型 
是表明不间的 加蒭委 
求聲来姝半幼加廝结系. 


夺这个供*青; ti 确.鍁籌会反缺出这种文化. （ S 此旗型省鼓. 


各个点在20%-50%范围内的分布情况与在10%-20%范 a 内 
的分布情况看起来很相似。 

也票这个**正确.可 " i 外# ® 归方 《. 


只有离个子才要求加薪。 

票这个》试正鵡.削这个银«禾适用子鎂个孑. 


礁个5可**高 
个务十得崧.也 
可*+得差. 



既然已经考虑了各种假设对模智 
的影响，现在要做的躭是改变算法. 
从而让人们知道如何使用外插法。 























由子使用外插法而傪還 
解廇的宗仗冷靜 T 来？ 



经过改进的新回归公式很少再让客户走进 

未知统计地带。 


这么说，你的工作到此为止了？ 


你只解 决:？部分问涯 

还有许多人的加薪结果存在扭曲，但他 
们所要求的加薪幅度就在你的数据范围内。 
你该为 W 曲人》什么 



4-»0%.而禾是5% ? 


祛曲的加薪结果数椐看起来 
是 f 十么#孑？ 


再看一看你的图形和回归线，为什么人 
们的实际加薪不正好等千他要求的加薪呢？ 


你也何解#唷 姿人得利的 



你已经对** 
加麝 20^-1 上 



是 H 么原 H 造成 f 
汶轉 编离保 _结求 
的谀渌限？ 




何谓机会？ 


机会误差*实 际结粜 乌模型 
预测结 粜之间 的值差 

无论你的回归分析是否无可挑剿. 

都免不了要进行这样那样的预*。这些 
«澜很少不偏不倚.这种实际结果与預 
测结果之间的《差叫做机会误差。 

在统计学中，机会误差又称为残差. 

对残差的分析是优秀的统计模型的核心， 


尽管你可能永远无法恰气地解释毎 
个« 离摸* t ! 的残差的原因， m 必须小心 
观察 敗点图 t 的残差。 

如*你能 iE 确地 解释浅 差，躭能史 
好地押解手头的数据以及携兜的用途。 
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保薄 总是与误差阃茌，你 
W 能 永远也 想不通0己的数棍 
中为什么 S 出® 明尝 误羞。 






最好进 一步调 養你的 算法： 这 一次， 你可能应该描述误差。 


下面是 一些有 可能添加到算法中的关于误差的前提条件，你 
打算将 W —个添 加到算法中 9 

■•由于存在机会误差，模型可能无法为你指 •你得到的结果可龅会在预测值上下20%。 - 

出预测结果。” 


■•我们只为符合模型结果的实际结果提供捭 •■请注意，由于存在机会误差，你个人的结 

保。 ■ 果可能会不同于预测结果。 
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我们禾要讨厌 16 
真*差！ 



你失去了所有審户. 


这事儿挺难开 口的： 你的整个业 
务《完了.薪资算法中的 最后一 行成了 
+-条分 羿线： 人们认为你能帮忙.或是 
人们认为你的产品一文不«, 


你打算卯伽嫁蟹0己的 
产品？ 
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坦亩误差 


误差对你和窖户都有 

你越是 对客户将在预测结*中发现 
的机会误差漫不经心，你和客户的距离 
就 越远。 

你的窖户 你的产品 
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机会误差钫谈 

本周 访谈： 

什么是机会？ 


Head First： 伙计，你是我的眼中钉肉中剌. 

机会 误差： 说淸楚点？ 

Head First： 是这样，因为你的原因，利用回归分 
析永远无法做出正确预涮》 

机会 误差： 什么？各种方法都少不了我，尤其 
是回归分析， 

Head First: 哼，只要有你在.谁会信任回归預 
测？要是我们的客户想知道提出加*后能够到手多 
少，他们不会®意听见我们说“模®«测结采和实 
际得到的结果难免、 可能有误差 - I 
机会 误差： 你全搞错了。你应该这样看待我. ■ 机会 
误差始终存在.但只要情得如何向别人解释躭并不 
可怕. 

Head First： 这么说误差不一定是个坏字眼. 

机会 误差： 绝对不是！ ！ ！误差能*上用场的地方 
太 多了。 实》上，要是人们经常以更妥当的方法指 
出误差，世界会 E 美好， 

Head First： 4f 吧，既然如此，我埂在打算这么 
做——假定有一个人想知进提出加薪7%的要求会带 
来多少加薪，我 就说：••模 型 S 测结*是7%.但机 
会误差指出你可能会得到其他结果 
机会 误差： 这么说怎 么样： 如果要求加薪7%,可能 
得到6%至8%。听上去是不是好一些？ 

Head First： 听上去一点儿不吓人I丨！真的这么 
简单? 


误差才是真正的大问题，你可以找到一大堆统计工 
具来分析和描述误差，伹最重要的是，要知道，指 
出預*范围比单单指出一个 数字有 用得多（并且可 

靠得多> , 

Head First： 我能用误差范围来描述 主观槪 率吗？ 
机会* 差： 可以，而且确确实实应该这么做。再举 
个例子.请问下面哪一位分析师 思路®严密： 一个 
说他相信明年股布会上涨 10%i 另一个说他认为明 
年股市会上廉0%~20%? 

Head First： 这还用说，第一位不会真认为股市会 
正好好上 » 10 %, 另一位更理性， 

机会 误差： 答对了， 

Hoad First： 那么，你说你来自囑里? 

机会误差 ：哦， 答案可能不太妙，很多时候都无法 
知道机会误差来自 W 里，尤其是对干单 -- 观察对 

ft. 

Head First： S 吗？你是说不可能解释观察结果为 
什么会《« 模型® 澜结果吗？ 

机会* 差：耔 •部分偏差能解释，例如，你珂能能 
够把一 些数据 点集中起来，借此减小机会误差，但 
在某种程度上机会误差还是会存在《 

Head First： 这么说我的工作就是尽 鼉让你 变小？ 

机会** : 你的工作应该是尽量为自己的模型和分 
析增加解释和預_功能，也就是要周到地对待我， 
而不是甩掉我。 


机会 误差： 没错！囑，可以这么说。实际上，控制 



定涛定误差 

实际结果恰好等于预期结果是件让 
人高兴的事，但真正的问«在于机会误 
差如何分布 （残 差分布）， 

你需要一个统计值.通过它体现出 
典型的点（或称为现察 结果） 相对于回 
归线的平均偏移置。 



确实如此-作为•种 * 度方式，相对于 
回归线的机会误差（或者称为均方根误差） 
的分布与相对于平均值的标准偏差具有相同 
的用途. 

有了回归线的均方根误差值，就能告诉 

客户实际结果与典型预测结果之间可能有多 
大差距。 




误差 


用均方根误差定量表示残差分布 
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R 的作用 



: 很快你就会看到，用 R 或者其他純计软件计算均^ : 非线性田|/3或多元回归将使用其他公式确定误 
方根非常方便，重要的是，你要知道*差是可以定量描差实际上，即使是线性回妇，也不止均方根这一种描 
述、定量使用的，还有.要能够描述預测结果中包含的述偏差的方法 量度谟 差的方法应有尽有，具体取决于 
谈差。 特定情况。 
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査询线性樓翌 対象 


R 的线性模型汇总 
展示？均方換误差 


只要你要求 R 汇总线性模型对象， 
它躭会给出一大堆有关对 象实* 的信 
息. 




340 深入浅出》据分析 
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让我们看看以回归线的均方根误差结束的新算法。 


能不能想办法让这个回归預*用处更 
大呢？能不能检 査一下 数据.看看是否能 
减小误差？ 


、解著 


这是你 的新说 ii . i 
齣入7珀方#谈差. 


这句话告诉害 户俥们 
可 " i 期待姝加麝范《 





误差 



将散点图分割成不同取值区间进行观察。在回归线的不同区间内，均方根误差是否 
有差异？ 





针对散点图上的每个取值区间，用顔色涂出误差所在 
的区间。 


发现哪些取值段的残差有显著不同吗9 


巳经在这靈忌你象/ 
J 一个馭值运 1*1. 
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吉 》: 老兄啊，简直疯了！似乎敝点图上的每个取值区间 
的 预测分 布都不一样！ 

乔： 是啊，真是疯了.真的。我们究竟应该怎么向客户解 
释呢？ 


吉媾： 客户是不会为这种®测付钱的。要是我们对客户 
说，••要求加薪7%-8%时.误差看起来相对较低，但要求 
加薪10%-11%时，误差就一飞冲 天了" 一客户是不会理 
解的。 


邦兰克 ：喂. 放松点，兄弟们.也许我们该想想各个误差 
区间为什么会是这模样.这也仵能帮助我们理解所有这些 
区间的加薪现象. 

吉 I 蝴笑状1你又在思前想后了， 

莠 兰克： 呢;，我们是分析师嘛，对不对？ 


乔 ：行. 让我们看看人们提出的要求.在坐标起始处，有 
一 片颇为不小的数据.一冲到5%左右就收窄了， 


吉付，而且在这-片数据中只有三个人提出的加薪要 
求低于5%,因此我们也许不应该对4%-5%区间内的误差 
过干 相信， 


典 兰克： 说得好！那么现在让我们看#从5%直到10%的区 
间，这一带误差最小. 

乔： 嗯，人们对自己的要求持保守态度，而他们的老板 
呢，也相应地持保守态度. 

弗 兰克： 然后.当托过10%…… 

宙 M : Gift 堆料啊.想想吧.15%町 谓大幅 度加薪.我 
看一般大家没有胆量提出这种要求.谁知道老板会有什么 

反应？ 

典 兰克： 有意思的假设。你的老板可能会因为你的大胆而 
奖赏你，也可能会因为你的冒失而给你点顔色看看。 

吉姆： -且你狮子大开口，任何事都有可能发生. 

乔： 知道吗，兄弟们，我认为我们的数据里包含两类人， 
说确切一点就是，我认为我们应该有两种模型。 



要是把数据拆开.分析结 
果会怎么梓呢？ 
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分区的意义 

分割的裉本目的是管理误差 

将数据分拆为几个组称为分割。如果为 
几个分组分别创建 预测模 型比单独使用一个摸 
型 E 能减小误差，則应进行分割. 

在单独使用一个模型时.要求加薪10% 

(或 以下） 的人的估计误差太离.而要求加薪 
10%以上的人的估计误差則太低！ 



观 S 取值区间可以看出，两个分区内的 
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如果把要求加薪10%以下和要求加薪 109b 以上的人员数据分开， 
两条回归线很可能具有不同的外观。 


这就是分开后的数据。想 象一下 两组数据的回归线的形状，把它们画出来。 
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^解者 


你已经创建了两条回归线一也就是两个独立的模型！ 
它们外观如何？ 


这备钱 f 穿提虫 ft 泜加薦要屯的人蘚. 
与獻拢的 f 合 理虔* 子雇来蜣旗型. 









考考你 


是个好 主意。为什么画两条就打住呢7 
画更多线一多得多，会不会让模型更 
有作用呢7 




优秀的桉归分析兼異蘚# 
功能和预测功能 

将加薪分析图形分为两个分区既能让分析 
结果与数据€吻合，又能避免出埂有太多解释 
或太多预测的极端情况，如此一来.你的模型 
就是有用横型。 

这个 旗鸯和 ♦个 

’軚 福立都 吻合. 


这个旗 S 与许# 可* 出 
的數《«合相吻合. 





你对數据了也* f . « 
无何*測. 



| o ) :为什么只把数据分成两组就 
打住呢？为什么不分成五组， 

^: 要是你有很好的理由需要那 
么做，请动手 t 

| o ) :我可以发疯般地把数据分成 
3000组，让分区正好等于数据点的 
个数。 

^:当然可以 。要是 真这么做的 
话，你认为3000条回归线对于預 *1 
人们的加簖幅度有何奇效？ 


世上进《傻问趣 

^: 要是真这么做，你可以解释 

一切。所有的教提点都有来历，所有 
0扫线的均方根误羞都为零可是. 
这呰模里的預《功能将丧失殆尽 

1°) :那么， 有一大 堆预测功能而 
没有太多解释功能的分析模型 又是一 
«什么样子？ 

^: 和你的第一个模型有*诹 

比如说这样一个 模型： 不管提出什 
么加薪•要求，都会得到-1000%到 
1000%之间的加薪结果。 


你是正硝 *6. 值禾 
够麴确.无« 农韓作用. 

^: 当然，但这个榣《所具有 
的《刪功能不 T ® 议很可能你所 
接特的任何人輙不会超出这个范围， 
但这个供型什么也不能解释这样 
的糢翌是以解释功能換取预测功能,， 

1°) :所以说琴误差似乎就是：没 
有任何预漪能力。 

^: 正是！你的分析应该介于具 
有完全觯释功能和具有宄全 預蜊功 
能之间，具体位于这两个极限位罝 
之间的哪个位置取决于你一分析师 
的最住判断你的客户需要什么样 
的樓型？ 
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相比原来的模型，分 g 模型 
能 E 好地处理误差 


这两个模型更好地描述了 
人们提出加薪要求后得到的实际 
加薪，因而功能更强大. 


让我们在 R 里实现这箜棋型- 


胆小谈判者的新榷型与数据 
* 合得 e 好， 


回归线的斜串 E»», 均方 
根误差更低。 


觚小该判者 


激进谈判者的新模型与数据也 
重合得更好。 


回归线的斜串更均方根 
误差更髙，这更好地体现了人们提 
出髙干10%的要求后得到的结果。 
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使用新樸型的斜率和截距，写出描述这两个新模型的方程式。 


根据所使用的横型，你的客户能够期盼实际加*与预期加豬有多接近7 


现在，你已经万亊俱备，就等创 建一个 更强大的算法帮助客 
户了解提出任何加薪要求后所能期待的结果。让我们弃旧迎 
新，把分析出来 的一切 信息都用上。 


—— 

I求《#得《|什么 n 果呢 
求出 答寓： 













最终的加薪算法是什么样子^ 




误差 


你的窖户纷纷设头 

新算法确实开始奏效，人人都为此激动 
不已. 



现在，大家可以决定，是要 a 着髙风险 
狮子大 开口，还是宁可降低要求，图个安稳. 

求安稳的人心想亊成，而不供风险的人 
也能理解他们为什么会有这种结果。 


第11 輋谩差 合理误差 357 






































12 兵系数椐库 


命 


參 你能关联吗? 



如何组织变化多纗的多变置数据？ 

—张电子数据表只有两维 数据： 行和列。如果你的数据包括许多方面， 
则表格格式很快就会过时。在本素，你会看出电子表格很难管理多变量数据， 
还能看到关系数据库管理系统让多变置数据的存储和检索变得极其简单。 



《数椐#新阗》 希望 分析锁1 

《数据 邦新闻》是时下®行的一份新闻类杂志，许 
多居民都看这份杂志。《数据邦 新闻》 给你出了一个非 
常特別的题 B :他们想把毎期杂志的文章数月与销置关 
联起来，然后找出在毎一期刊物上刊登文章的最优数 


他们希望毎一期杂志都能尽 ft 经济有效，要 是毎… 
期杂志刊登一百篇文章比刊登五十篇文章带来的销量:并 
无提卨，那他们就不刊登这 么多， 8—方面，要是刊登 



五十篇文章比刊登十《文章能带来更大销置，那他们就 
会刊登 五十篇文聿. 




要是你能给他们全面分析这些 
变量. 他们将免费为你的数据分析 
业务做一年的广告。 









r •赛梦 动膊 


《新闻》 给你送来了他们的经苷数据.是四张独立的 
电子表格 文件。 这些文件相互之间有一定联系，为了进 
行分析，你需要弄淸楚具体有哪些联系. 


这蚩瓤据象锫 

省何梱 i 联系？ 


看東 他们在 对许多 
-資料迸行笨 s. 





达是他们保存的运营路踪数裙 




为了对比文章和销置的关系，需要知道 
些什么？ 












数据有何关系？ 
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在表掊之 阄画上 酱灰. 
它们相 i 之用始共系. 













你发现 <数据邦新闻> 保存的数据表之间有何关系？ 


每一笔销量指 *6 是一 期杂志 的一批 
邱刷品（通脅钧《»传）. 


备一期都刊發 
一秕式聋. 


毐一值作 老写 
一批爻聋. 













关系 数据库 


数椐库就是一系列相至布 


特定兵系的数椐 

—个数据库就是一张表格或一组表格，表格 
以某种方式对数据进行管理，使数据之间的相互 


对子那安 fc 据真型 不重蜣 
ft 扠.可通 ii# 定* "现 
襄現用- fe 据*營理 麩掂. 



具由 己劫孚 定相數 


这是个4超. 


I 那么.如何使用这方面的知识来 
~ 、 计算 毎一期 文章數目和总销置? 
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找到一彔贯穿各种兵系的路线， 
认便迸行必要的比餃 


如果手头有一些相互独立 
的表格，但这些表格中的数据 
互有关系.同时又有一个关系 
到多张表格的 N 题需要解答. 
那么，就需要沿着相互关联的 
表格顺藤摸瓜。 


釗建一份穿过达条路径 
的电孑表楛 

一旦 知道自 己潘要哪几个表格.就可以_ 
定一个计划，将数据与公式关联起来《 

在本例中.你需要有一份能对毎期文章数 
目和销 a 进行比较的表格，你将潘要写出公式， 
以便计算蒞要计算的败值。 


_在下一 个炼习 中•你 
将針这喽 數值. 


你将需* 用公 式 
计 篇这喽 數值. 





O 在期刊数据表中创建文章数目列，填入 COUNTIF 公式 计算该 ¥刊的文*数目;然后对每 
一 期刊物复制和 粘贴该 公式。 


让我们 创建一 个电子表格，像对开页上的 一样， 然后首先计算 每一期 
<新闻> 的"文章数目 • 。 


0打开 - hfda _ ch 12_ issues . csV 文件，保存一份副本，以便工作。记住，可别把原始文件 
搞乱了 1 将新文件取名为 -dispatch analysis.xls - 。 

用撕名# 係 存这个■件. 

* - i 先 M 秌原 抬數 

广厂+ 圓— f 

I <hkmw. headfirstlabs com/booka/hfda/ I 

X hfda^ chi2^ Issues, csv 

www headfirstlabs com/books/hfda/ 


O 打开 " hMa _ ch 12_ article ». C 8 v , 右击表格底部 
带有文件名的选项卡。命令电子表格程序将文件转 

移到 "dispatch analysis . xls " 文档中。 
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关系数据库 



0使用 SUMIF 公式计算期刊 ID1 ( issuelD 1 ) 的销置数据，将公式填写在单元格 C 2 中。 
复制该公式，为其余每一期刊物粘貼该公式。 


Q 复制 hfda _ ch 12_ sa _ es . csv 文件，使 
其成为 dispatch analysis . xls 中的一 

个新选项卡。在用于计算文章数目的 
同一个工作表中，新建一个 Sales (销 
■ > 列。 










第二个耆 该軚你|«计"》 
其销青的特定期刊 • 


#三个6嗖 ■§ ■指向你*菅. 
汇患的实标铂耆. 


m 

斛考 


C " 


你用了哪个公式将销置添加到电子表格中？ 


，该么•式泉明期刊 

虫 J 22 Z 7 侍. 


- 式46 * —个6 « 耆1 •食取期刊. 


■aovfifz. HJ»jfitZ_uilB.ai. 


A. 



732Q4IP08172361695 
似 7022521828920021423017112236421S1821S3140221403I 


1 44444555555555555 
■ 000000000 / 0000000/0 

Jr^pl^^pllsll 


lb..:. 7 - 


IO1B3 45678911011111211311411511611711811 















通过汇总将文章数目和锁 1 兵联起来 





捋弍件命名 & 'dUftch w y w..c w ".- / 
o 加载数据后，执行下列函数，看到一个优化值了吗？ 

plot(Sales-jitter(Article.count) , data=dispatch) 

_ 很诀体 就会* 剎 

jitter 德作 fll * 


在 R 吣工作目录下将电 § 表掊 
麩 籌弍件 体存糸 esrj 式件. 










关系数据库 
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看来你的殽点橙碥实®得很好 


I 主理 . 谢谢 , 


— 

数据邦新闻 


( 

看象你还省很多工作 

毳沿 . **1 


这神怀 e 。 L, 你的分折完全证实 7 

恭*你得到年 

實传你物 的财。 卽 7 ^ 1 Sff ] 乐子对外 


委鈦 ■ 




世上没有傻问越 


1^) :人们确实会像这样把数据存储在相互关联的电 
子表格中吗？ 

^: 确实如此，有时候你的數据是从更大的教据库 

中节选的，有时則是人们像上文释样手工关联在一起的 

I 15 ):基本上，只要公式能够读取代码，就有可能通 
过电子表格把各种数据联系起来，只是繁琐一点。 


^: «•不是每次都邺么幸运——能 移从多 个数据 
表中得到教据.并且这喳教据通过精 巧的枉 序代码相互 
关联。通常得到的教据比较洮轧，为了让电子表格和公 
式同时生效， 需要 做一*数据清理工作,.下一章将更佯 
*« 地介《这方面的内容。 

:有没有能把来自不同表格的数据关联在 一起的 
更好的软件构造 7 
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^ : 你认为有，对吗？ 




关系数据库 


复制捋粘贴所有迖些数椐是件疡苦的事 

毎次有人査询数据（即提出关于数据的问 
题）时都要做一遍这个过程也太煩 人了， 

而且.不是说计算机可以完成所有这些麻 
烦事吗？ 
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认识 RDBMS 

用兵系数椐库管理兵系 

关系数据库管理系统 （RDBMS) 是最重要最有效的数据 
管理方法之-％关系数据库是一个大®題，你对它了解越深， 
就越能发挥存储在其中的数据的作用。 



重要的要知道，数据库所要求的表格之间的关系都 


足通化关系，数据库并不介*期刊 如何. 作者如何，它只知 的獻值 就是钼 


道一份期刊有多位作者。 


RDBMS 中的毎一行都有•把钥匙，通常称为 ID (标识） 如果 <(数振邦斬闻》有一个数*库. 鬌宪成 

. 钥匙可以确保这些置化关系不被破坏，一旦建立了 RDBMS. 上文进行过的分析 tt 容易搏多。 

请 注意： 精心构造的关系数据躭会成为数据分析的宝库， 
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(〈数椐#新闻》利用你的 
兵系楹建 i ?—个 R 卯 MS 

现在《新闻》可以将所有的电子表格载 
人一个真正的 RDBMS 中了，你的思维成果. 

加上总编对数据的解释——也就是数据库结 
构，形成了下面这个关系数据库 • 


§6 动笔 


下面是 <数据邦新闻〉数据库的 
架构， B 出你需要的表格，将这 
些表格放到同一张表格中.看看 
哪一 位作者的网站点击率和网站 
评论最多。 

然后在下面画出这个表格，表格 
中显示用于画散点图的几个域。 


在这 ** 出斛 
需委的泉掊. 


这炎*象#…… fii .1 

每篇 a 章的阐上详价. 





寻找表格 



^解著 
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关系数据库 


《数梅#新闻》 fflSQl •挂取数提 


SQL 是 Structured Query Language 的缩写，即结构 
化査询语言，是一种关系数据库检索方法 • 你可以通 
过输入代码或使用能创建 SQL 代码的图形界面，令数 
据库回答你的 SQL ■问 a. 


这炎報《你的*妻 
瑜±的蚩询猪票. 



\) 




^佚弗卞栽/ 

t ♦ 


这是一个#单赭 查讷. 


SELECT AuthorName 

FROM Author WHERE 
AuthorID=l; 


Hrstlabs.com/booksA 
_ articleHitsComment. 


俐建这个獻据故 i 询比左 边 J 


你并不是非懂 SQL 不可，但懂得 SQL 绝不是 坏亊， 
* 耍的足 . 了解数据库中的各个表格及这苎表格的相 
互关系，进而懂得如何提出正碥的问題。 


这个 i 祐迭 ® Author«1i 
老) 条 + AuthorID 城鲁 
子146作=#名社. 






教点图集合 



从散点图上看出什么了？是不是某些作者能带来更大销量 7 

❶ 将 hfda _ ch 12_ articleHitsComments.csv 电子表格载入 R 。 

@ 这次我们将用更有效的函数创建散点图。用下面这些指令加载 "lattice" 

数据包，然后运行 xyplot 公式，绘制 lattice 散点田。 
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性篡: Cori—y rffc 新省的式聋点去車 # 在_$000"1上.且大秕今式*都 

啤 20 .多辜.的+很喜欢 他 - A 他作者的泉现嘀崧嘀秌. Vaiiny ^ Nkole^iUk 
畸 ..... ^ 吟麥粤幹蛘平 斥 581 ! 0 ! 8 ^?*， 8 * 1 ! 9 ! 1 里得禾太受欢迕. 


这*«硌说计值 
今洚在各个 ( fi 上. 
«!粵值作老的泉 
说各禾 相间. 


-这个最立 (6 集合農乐虫备篇 5 •嚤蟋闻站^•去 # 
和详论攻數.并拔作老兮 《. 


根据这种计算方法， W 些作者表现最好？ 


m -0 1 IW 










RDBMS 可以变得很复杂 


发 件人： 数据邦新闻 
主麵 :关于我们的数据 


哇，太让我吃惊了，我-直觉得 R afaela 和 
Destmy 是我们的明星作家，可没想到领先这 
这炎患編对你*后 么多。得大大宣扬他们 1 这些信息会让我们的 

-传 兮祈始评价. 出版物更有针对性，同时能更好地奖励作者的 

_ _ ^ 表现。 谢谢。 

——数据邦新闻 


R 卯 MS 数梅玎0(■进行无穷无冬的比餃 
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关系数据库 


你上？封面 
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13 螫理数椐 


命 





乱糟糟的数据毫无用处。 

许多数据捜集者需要花大量时间整理数据。不整齐的数据无法进行分割、 
无法套用公式，甚至无法阅读，被人们视而不见也是常事，对不对？其实， 
你可以做得更好。只要眼前清楚地浮现出希望看到的数据外观，再用上一些 
文本处理工具，就能抽丝剝茧地整理数据，化腐朽为神奇。 



客户名 里到手 


刚从停让的责争对手那儿 
檍到一份窖户名单 

Head First 猪头公司是你的最新主 Bi, 该公司从 
•家停业的竞争对手那儿搞到了 一份求 职人员名单。 
为了得到这份名单他们花了大把钞 S. 不过这非常 
值得。这份名单上的人都是人中龙風.是最炙手可 
热的人才。 



-佚奔下栽 f 
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数掩分析不 玎告人的秘密 

数据分析有一个不可告人的秘密——作为 
数据分析师，你花在数据轚理上的时间多过数 
据分析 h 的时 M 。 到 f •的数据往往算不上井井 
有条，因此，需要做一些繁璽的文字处理工作， 
使数据格式符合分析的需要. 




^ ^ % 

o 汗始® 新输入。 


该怎么从头开始处理这些乱哄哄的数据呢 7 看看下面几种可 
能的办法，写出每种办法的优缺点。 


o 问问客户整理数据的自的， 


0 写出一个公式.整理数据。 
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描头的目标 
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动笔 


下面的数据似乎 是一串 名单，按照客户的描述，我们 
需要的正是它，你需要做的是滴晰地排列这份名单。 


按照希望看到的数据格式， 画一 张图，显示数据列和数据样例。 


5 U7V-*leiHa<U(ID U7)unuu«nni422>71^U«'M0WUUa0lA)]/M U:32 

6 ue»>Mco(>yKc<iD tM)oknoo<M9i7 an^utM2Maai/03/a 

r issv'SiuimenmubMio i»|nma)i««i；'a7 223<M237«ii/(M/oe n：i> 
8 7M*«wnln|tonafafT(IO ?S)«imimW17 Mi 460 I M2S»«01/0S/0« 0W» 
s 9lr-PMn>K>>v(ID91)r««10a»«212 «M<<e2M2SM0I/(a/a(0«:ia 

10 I52»>€lljnnami«{IO IS；)ainan030a«4&ai»-277aM2<(»01/(»/ail»:41 

11 aiTO>rr*n>Sum(ID <)l«012ai212-2»-3311M261ll0I/0S/a 1S.-11 

12 16«mtoIMUha«^IO lM)ard>10U5ni2-7DO-7]04*UtMOI/07/0( 11 
1} nriw>wUn<«ann((IO 7)<1010M347-4(»-543«M»MOI/07/OI It JO 

14 lI»«*I>ocWn(>art(ID 10S)mi]<M7U4(3-5]2SM2«M01/07/<a UJ1 

15 163^00W»n«ln|i«lD lM)m»U22«71»-M»-2eoeil»»»Ol/0«/0e 14:28 

16 lw^choiMMccoytio iM)nman47-su-4mM2t«aoiya(/oe um 
l, Mr-vaiiuiuntiD M)dfnnnu34in» m* «Muuenoi/m/0( u^7 

IS MTHyllWyjUQO M|W016?W17 M>-5t»IM26W01/09/Q« 1S.10 
It 4M*Onu»MuK 10 4S)hnmUM6-3U 307DMMMai/OV<» ltJS 


和 "CalllD" 
W 手并无实标 
* 系. 






动笔 
、斛箸 


你希 a 整理好后的数据是什么样子？ 


金##今停#后.拔歙掮 
城进行#涛.述 《. 成将麩 
入_件合4«冷. ««■». 


r *« 得項电 诂考碣 …… 
这对搞售至农 t 委! 


你可 .. i 着利想 看剎螓 信惠.洗在 
这去侑惠部掎在^列中…… 


-你需委将这安信惠拆今 糸多斗 


a C D E < c ' 

1 PenonlMFi>5lN*m»»l»«N»me»n Whooe»C»IIID»Time |^_^_J 

2 un^AlealMRumusllD U7)en«lM22«7U~»4~24O3M2Ua0I/01/M 12:32 
i WUendenMUsmusKID w)*nnooiSaM6-tU-7298M2S]<01/02/m U:17 
4 HO'BeaumaredO 94|n0013«6«6-391-992«M2M<ni/a2/081454 

i U7>*AleilMIU(IO U71smuutnni422«7U S34 2403U2Umi/03/0815:12 

6 13««*j>cot^*Co<IO U6|oU100«Mn7 aOS-61MM2M>OlA>3/081S3J 

7 13»*Qulnt*<«Hull6«(ID l»)nlna016M17-«t7 22SCM2S7KI1/Ot/0« 1J:1» 

> 75<Wl«iiUn*lon»fa»i(IO 7S)cllniM3M17 M]-4<0(M2Snni/0S/0( m«9 

9 Sl»*Pedro»«y(IDSl|n«no005»2U-4M-6862»«SMOJ/05/0«l»:10 

10 15J*^IUnn»«M«<IO U2)aina»10J08»646-*l»-?77S»4I«0«01/0S/08 OT:41 

11 BT-OarixuiBumilD >)<noi]l»U-2»-}311M2<lini/IB/(» 16:11 

12 lM|antn015SR12-ra>-7IO«M}S2a0iy07/M 11:2] 

13 7IKIiqu*lin<«Cwm(|ID ^n010UM；-«»-S4]9M3<3a01/a7/aS 1U0 

14 105**Parl«<Wark(IO H»)milSM7U4»-S32SM2MaOlAl7Aa 13:11 

15 lUiriXxmanllUvX'O 163)in«lU2«7U-S43-2«aM2UaOI/l]e/Oe U:2S 
It l；4a*Owl«>mcCov(IO 174)ni220n47-312-472VH2t6aOl/08/n 1S:4B 
1/ t*>*Y«IU«Mn(IDM|<linnnU3M7U-M»4MIM2t7IICl/09/0eUJ7 
u uimylwuytlaoo u)noM7an7 7«i MS4H26«iai/(»/« is：ia 

19 4SH>Ofna>IMu>|IDaS)hniMUt<frSl«-307aH2«M01/l»/(» 16:29 






















最后要做到的是回头逐行修改数 
据——这可要大费周折，所以要是能够 
识别重复出现的混乱符号，就能写出公 
式和函数，然后利用各种模式整理数据。 
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[* n *«i 4 ch)>w 

L W IMtlMm WBfCmMMS 




AhWIOU) 




Excel 通过分腐符将 
数椐分成多个列 

小事-•桩。只要各个数 
据域之间有分隔符隔开，使 
用 Excel 的 Convert Text to 
Column Wizard (文本转变为 
列 向导） 会非常方便。 

不过这些数据仍然有问 
埋。例如，姓和名的域中都 
有-•些多余的符号，必须想 
个办法除掉这些多余的符号！ 


说在 數籌己羟珐楚 

地今成了； L?J. 


筑《數《已 径拆科 .就可 
矣兮#1处《了.、 


么嫜霞 

(A) 咸呢？ 







你会使用什么横式来修复 FirstName 列？ 


EyiEilEEEE=JS_ 

=IE™SSSSH=!II 

VSEiMmisss^sssseiL 



EI UM HEi M)» fiEII MUua :si: 

£^rM>rsnll>4r2~--rt23$3i 

lEEitu--ri … EMI-israE: 

LHiiEsisEEilEEE: 
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FirstName 域中是否有某个造成混乱的模式？ 


+个岑.穿.岭見禾埤* ♦辛二 个二 r 二 .宽辟 今碎埤學.辞！ ..... 平却蜂#.峰味 t. 


A FirstName 


这个 絮符是 



这*今彳是 

省用的青料. 








将 Excel 公式与功能搭 E 起来 • 你觉得可以用》种功能整理名字列？ 


FIJVD 


LEFT 


RIGHT 


TWA* 


厶 EJV 


CONCATENATE 


VJl^VE 


SUBSTITUTE 


求单元格的 长度。 


求以文本格式存储的败字的数值. 


取电元格右边的字符* 


以指定的新文本替代单元格中不需要的 
文本. 


告诉你在蟓元格中的囑个位置*找搜索字 
符串. 


取两个值，然后合并在一起《 


取单元格左边的字符， 


W 除单元格中的空格。 
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逢逢 4? 瓣著 


将 Excel 公式与功能搭 S 起来.你觉得可以用 W 种功能螫理名字列？ 


K 诉你在笮 7C 格中的哪个位 Sift 找搜索宇 
符电. 


-这就 是我们委用的公式.用它可 ..1 替換掉 
名称列中的官符. 


W 除单元格中的空格。 



用 SUBSTITUTE 替狳 “ A ” 字符 

0 在单元格 H2 中输入下面公式珂修复 FirstName 域： 

■SUBSTITUTE(B2, 




^适样你/ 

C ^ 



fo ) :只有这些公式可用吗7要是 
我想取出单元格左右两边的字符拼 
接在 一起， 该怎么做？似乎没有这 
种公式。 

^ : 是没有，不过你可以将文本 
函数嵌套起来用，这样就能完成更复 
杂的文本处理。例如，如果想取出 
单元格 “A1” 中的第一个和最后一 
个字符拼接在一起，可以使用下面这 
个 公式： 

CONCATENATE (LEFT (Al,1), 
RIGHT (Al,l)) 

1^ : 这么说我可以 把一大 堆文本 


世上没 《 傻问超 

公式嵌套在一起？ 

^ : 可以，这对于处*文本很有 
效 ： 不过有一个 问题： 要是教*实 
在太乱，再把一大堆公式嵌 套在一 
起，整个公式就几乎没法辨认了。 

1°) :管它呢，只要有效就行，我 


^ : 呵，公式越复杂，就越需要 
小心谓整；公式越难辨认，就越难以 
调整。 

I ®):那该怎么回避繁复而难以辨 
认的公式呢？ 


^: 不要把较小的公式合并成_ 

个大公式，而是杷小公式拆成几个不 
同的单元格.再用一个最终的公式 
将所有單元格合并起 来，， 通过这种方 
法，假如有哪里不对，就很容易找 
出*要调整的公武。 

1»):我打赌 _ R " 有更好的文本 
处理办法。 

^ : 有是有，不过干嘛要费事 
去学呢？要是 Excel 的 SUBSTITUTE 
公式能够完成任务，就省省时间吧， 
别管 R 怎么做了,， 





修霣“姓" 


所有的“蚀”都整理好？ 

利用 Excel 的 SUBSTITUTE 选取每个 ■■姓 '■中 
的〜” 符号，代之以通过两个引号 （**-) 指定的 
空内容. 



为了永 远劃除 原来的“姓”数据.复 
制 H 列，然后执行 “Paste Special > Values " 

(选择性粘貼>数 值）， 将这些值转变成纯^— <+*«»• ••… 
文本，而不再是公式输出 结#。 KeBpsi *^ 

除 FirstName 列，这样就再也看不到讨厌 
的 - V 符号了. 
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让我们再用用 SUBSTITUTE, 这次要修*的是"名 


®13E 螯理》据并然有序 401 


你能写出一个有效的公式吗9 


■SUBSTITUTE (参考单元格.被*换的文本.用于替换的 文本） 



难以处理的格式 



用 suwmun 祭狳名字糢 

式太麻烦7 

SUBSTITUTE 函数的功能是找到某种格式 
的文本字符串并#换.•名 ， 的问題 4毎个名 
称都各不相同.堆以替换. 



0 Ui 鑰入螫換值 . 由态 

这*值会《来《去. 


不仅如此， LastName 域的复杂樓式还 在于： 

不统一的字符串出现在各个单元格的不同位置上， 

长度也不一样。 

^--场长歲 

这 I * 禾说一从單无杨--- \( 是7个官苻. 

穹符故*”值丹抬 . Rasmuss (ID 98) en 


这里的禾钝一从 
第三值穹符丹 



这一段曲长度 

射& 8 个穹符. 









R 的正則表达式 
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S 理数据 



最好行动起来！ 方案： , - .法株你! 

O 将数据加典到 R 屮. e#head 指令得出的结果， -f 以将 Excel 文^ 

为 CSV 文件 • 然后将 CSV 文件 T 教到 R 中.或可使用以 _FW 络链接获取 
最新数据。 


这个 指令将 CSTJ 该 



Q 运行以下正則表达式指令 

NewLastName <- sub , hfhhSLastName) 


O 然后检査一下工作成果：运行 head 指令，査看表格前几行》 

head(NewLastName) 

结果冊捆？ 
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用正則表达式进行替换 


用 sub 持令整理“名” 

sub 指令用空格替换所发现的所有指定模式， 
有效地删除了 LastName 列中的毎一个插入文本 
字符串. 





R RM l«t Mew Mtc WMOM Hdp - ■ - 1 

uaissmioi.aj 


•IU»waaBeo- -Ccck" 





让我们看看 语法： 

这是代象经过«« 

«6 •名-的*灰耆 

J 

NewLastName <- sub (、'\\ (. *\\} 〃，〃〃， hfhh $ LastName > 

H 要能在混乱数据中找到一个樓式，躭能写出并利 
用正則表达式得到自己想要的数据结构。 

再不必編写长得让人发疾的电子表格公式了 I 



这 AiW 象达式 儀式. 


这是空由 . A 4 , 

' 此詧換镇式. 




|o) :某些正则表达式似乎的确难 
以看懂，掌握正则表达式有多难？ 

^: 正則表达式难懂的原因是它 

们非常精炼，在语法上精打 fc 算非常 
有利于处 a 错綜复杂的模式。和其 
他复杂事物一样，正 w 表达式 ft 学 
难 精,， 多花点时间研充正《表达式 
吧，你会务明白的 

1«): 要*没有电子数据表怎么 

办？我的数据可能取自 PDF、 网页 
或甚至 ftXML。 


世上没布儍问趣 

^: 这才是正《表达式的用武之 
地。只要能把信息转变成某种文本 
文件，就能用正 W 表达式解析。《頁 
尤其是数据分析工作中常見、地道的 
信息泉把 HTML 标记模式編制成 
正《表达式不过是小菜一礞。 

1 °) :其他还有囑些特定平台使用 
正則表达式 ？ 

爷^ : Java, Perl, Python, Java- 
Script …各种各样的编裎谱言都使用 
正《表达式。 


S 理数据 

1^ : 既然正则表达式在編程语言 
中广泛使用，为什么 Excel 不能执行 
正则表达式？ 

^ : 在 Windows 平台上，你可以 
用 Excel 自带的 VBA 编 租谖言 执行正 
«表达式。但大部分人很快就会不 
再费心学习 Excel 編租.而是改用功 
能更》大的租序，比如 R 哦，由 
于最新发布的 Excel for Mac 去掉了 
VBA. 所以，无论如何都不能在 
Excel for Mac 中使用正則表达式 T 



现 在玎认 向窖户 

交货？ 
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重 9 数据 



他说得对，以 Alexia Rasmussen 为 
例： AlexiafiH 实出现了一次以上.当 
然, 6丁能有两位同名间姓的 AUxU 
Rasmussen, 可是. ft 仔细一看呢，两 
条记录的 “Person^ 都等干_127* 
. 这就表示是同一个人 • 

有可能 Alexia 是唯一 霣复出现的名 
字，而客户正巧看到了这个错误，为 
/充淸究毚，你需要想个办法让 自己更 
轻松地找出重复现象.而不用费力査 
看这张长长的名单， 
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为数椐排序，让重复 
数值集中出现 

如果数据置很大，则发 现重复 数值赖 
为不易，给名单排个序的话就容易多了* 


咴現这传名单中的 
锖况麯 &禾 ！>. 尤其是 
在名草 ft 长吣下. 



未撙序 

Alex 

Stu 

Sara 

Greg 

Chris 



这 儿省大 





让我们通过排序更仔细地 看看 名单中的重复情况。 


在 R 中，通过子集括号中的 order 函数可以对数据椎 


架排序。执行下列指令: 


排;4得出46斯名草. 



由于 PersonID 域有可能是代表每一个人的特定鴒号，用它排序再好 
不过。毕竞，这些数据中可能 不止一 个叫做 'John Smith- 的人。 
下面，执行 head 指令看看生成的结果： 


head(hfhhSorted, n-50) 


K 做了什么？ 




通过嫌序发现 重9 数据 



用 R 按照 PersonID 对数据框架排序后，发现有重复数据吗？ 


名言 <«. 真乱 I 


若手头数据非常混乱，就应该大胆地排序，尤 
其是在记录量很大的情况下，要一次性看清所有的 
数据往往很难，而按照不同的域对数据进行排序则 
能够 以直观 的方式为数据分组，从而发现重复现象 
或其他疑义。 
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RDBMS 返回结果 



达些数椐布玎能采遇 
子某个兵系数提库 

如采你所拥有的混乱的数据列表 
中出现 1R 复元索，甽这些败据有可能 
来自一个关系数据库.在本例中，你 
使用的数据是某个査询的输出结果， 
且被输出成两个表格， 

由于你 rWRDBMS 架构.你知 
道，我们之所以看到这些重复现象， 
是因为查询返回败据的方式.而不是 
因为 数据质■低劣。所以，你现在可 
以放 心地删 除这些重复的名称，而不 
必担心数据中存在本质错误。 
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m 知道这个 ft 
据本 +述項妥 
计么资斜呢 f 














删除重复名字 

既然己经知进名字出现重复的原因.就可以 
开始删除I"。 R 和 Excel 都有用于删除 S 复数据的 
快捷.简便的函数。 



既然你已经有 了除去 这些頰人的*复名字的 
工具，躭让我们整理名单，然后交给客户吧， 

0 创让 •个新数据框架.显示唯一出现的记录 
hfhhNamesOnly <- hfhhSorted 

0 刪除 CalllD 和 Time 域.这些域使名字出现重 J[, 而客户并不需要这 

些域： 

hfhhNamesOnly$CallID <- NULL 

hfhhNamesOnly$Tlme <- NOLL unique 在行场 ! 

Q 使用 unique® 数 W 除*复的 名称： 

hfhhNamesOnly <- unique(hfhhNamesOnly) 

0 看一看结果，将结果写入一个新的 CSV 文件： 



w 在 r 中—劳乐 
修箕努辗…… 

4 - + 







你创建了奚难、 整洁、 爯有唯一性的沱录 

这些数据看起来无*可击：没有挤 
在一 起的数据列，没有混乱的字符，没 

有!6复现象.这都是按照下列螫理混乱 - 

数据的基本步骤进行操作的 结果： _ 

| ^Mal^Ql^llal 













整理数据 


Head First 猪头公司正 
在 — R 打孕各#人才 .r 

事实证明，你整理的数据集收效奇 
特。凭借这份活色生香的名单， Head 
First 猎头公司客户盈门，没有你的数据 
整理技术，他们决不可能走到这一步。 
干得漂亮！ 
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as {分析之路 



爯见 


数椐#感谢您的光临 f 

离别让人鼸然神伤。不过，看到你学以致用，这是我们再高兴不过的寧。你 
的分析师人生刚刚开始，我们已经扶你上马。我们渴望知道你的消息，所以，来 
Head First 图书馆网页上 { www.headfirstlabs.com ) 给我们写几句吧，让我们知道 
数据分析为你做出的贡献 1 
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附录 A : 尾声 


命 


正文未及的十大要诀 



你已赖有收获。 

但数据分析这门技术不断变迁，学之不尽。由于本书篇幅有限，尚有一些 
密切相关的知识未予介绍，我们将在本附录中浏览十大知识点。 



其一：统计知 iR 大全 

统计学领域拥有大最数据分析工具和技术，对 
数据分析极其重要，乃至许多“数据分析”著作其 
实就是统计学著作. 


下面列出本书未提及的统计工具. 

作*兮析 砟. 委是铖 通* 



«深入浅出麩据兮祈》 
未提&的钝计知识 



不过，通过本书，你在假设和建模意识方面获 
得了长足进步，不仅为使用各种统计 工具以 好了准 
备，也了解到了各种统计X具的局隈性. 

统计知识越渊博，分析工作越有可能取得辉煌 
成就。 










7% 8% 

38% 194b 


30% 

19% 


66% 41% 83% 9% 0% 46% 45% 35% 15% 63% 
27% 33% 14<M 30% 58% 28% 33% 3S<M> 16% 19% 


< 


顶 《麩*今 析 4 連鈦梦*在敌麩 籌彖掊 ■ 


其二： Excel 技巧 


本书假定你箪握了基本的电子表格技术.但 w 熟 
的数据分析师应该是一个电子表格忍者。 


与 R 及回归等溉念相比，掌掸 Excel 并不是特別难 • 













其三： 耶魯大学教授 EdwardTufte 
(爱德华 • 塔夫特）的搀形原则 

优秀的数据分析师会花大置的时间反复拜读数据分 
析大师的杰作， Edward Tufte 不仅在自己的工作上独树 -- 
帜，而且对搜集并选入自己著作的其他分析师的作品质 
最也存独特的 看法。 下面是他提出的关于分析设计的基 
本 原则： 


“体现出比较.对比.差异 ." 


‘体现出因果关系.机 M . 理由.系统结构. 


‘体现出多元数*.即体现出1个或2个变置 ." 

‘将文字.数字. EB 片. ffl 形全面结合起来 . _ 

‘充分描述证擔 . 

‘数据分析报吿的成败在于报吿内容的质置.相关性和螫体性 


这些引言出自其著作《出色的证据》 ( BeauliliilEvidence ) 
之127, 128、 130. 131, 133、136页.其著作可 W 数据图形化 
顶级作品展馆， 

另外，其著作公共政策数据分析 》 (Data Analysis for 
Public Policy ) 可谓回归技术宝典，可在此网址免费下 
栽： http :// umxw . edwardtufte . com / tufte / dopp /. 





尾声 


其 H 9: 数椐透视表 
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尾声 


其六： 非线性鸟多无矽归 

即使数据未呈现线性外*,在某些情况下， 
也可以使用回归进行预测.一种办法是将数字变 
形.最终使数据线 性化， 另一种办法是穿过图上 
的点画一条多项式回归线，以此取代线性回归线 • 
同样，不必限定自己通过唯一的自变脈预测 
—个应变量.有时候，影《变最的因泰多种多样. 
为了进行有效预测，可以使用多元回归技术. 



T 用这个 •♦式 通这一个电重 

v ^一耆《«—个右文 ■». 



广 也可 "1*虫一个4式. 4过多个由文看《»一个在文看. 

y = a + bx, + cxj ♦ dx, + ― 


^ 这个鲁式是多无因忸 4 式. 
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随机 性与更多假设 


其七： 原假设-备择假设检验 


尽管第5章介绍的假设检验技术用途 
广泛，能涵盖各种分析问题，但是，不 
少人（尤其是学术界与科 学界） 一听到 
“假设检验”这几个字，就会想到统计技 
术屮的原假设-备择假设检验。 

使用这个技术的人多于理解这个技 
术的人，如 果想 学会,«深人浅出统计 
学 》 （Head First Statistics ) 给个 不错的 
起点. 



其八： 随机性 


随机性蛙数据分析的重头戏. 

原 K 是随机性几乎无迹可 寻。当人 

们试闬解释搴件时.通过以隹证据， 
可以解释得很好> 但在做决定的时候， 
仅用解释撗 S 就收效不佳_ 

要是客户问你为什么会发生某件事. 
在经过最褙心的分析之后，你往往只能 
老老实实地 回答： ••这件亊可以用结果 
的随机性来解释 ." 





尾声 


其九 ： Google Poes 

我们介绍过 Excel. OpenOffice 及 R， 其实 Google Docs 
也很值得一提。 Google Doc* 不仅有功能完备的在线电 
子表格，还可通过 Gadgets 性提供大置 图形。 


..i 焓相五龙八门妹«彬. 



另外， Goolge Docs 有很多功能都能帮助你访问实时 
在线数据资源。这款免费软件绝对值得一试， 


附录 A 尾声正文未及的十 大晏诀 425 






个人的作用 


其十： 你的专 让技能 

你学会了本书介绍的各种工具，但与 
此相比，更令人振奋的是，你将结合自己 
的专业技能，凭借这些工具去发现世界. 

改造世界。祝你好运。 

你拥碲 *64 此技* 和斬额 * 今祈 
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S 装 R 


命 

# 启动 R ! 



强大的数据分析功能靠的是复杂的内部机制。 

好在只需几分钟就能安装和启动 R, 本附录将介绍如何不费吹灰之力安 

装 R。 









安装 R 


❺ 


❹ 


在各个窗□中，单击 Next (下一 步）， 接受所有 R 默认安装选项，让 

安装程序执行安装。 单去 /Wt (下 一 j>) gp 
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选择 Add-Ins ( 插件） 标签，单击 Manage 
Add-Ins.( 管理 Exce 播件 > 旁边的 Go...' 

行… } 。 




二 1 


单 去这个 被銥. 

Vi 


1 国 
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\换码符,406 
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185-188 
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218 
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and observational studies ( 观察研究法） • 45. 49 
constraints ( 约束条件 > 

charting multiple ( 多元图形 1.84-87 

defined ( 已»定 ). 79 
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histogram not in chart format ( 非图形格式直方 ffi 1. 
261 

read.csvO ( R 抱令 ），291 

Solver utility not on menu ( 菜单中不见 Solver 功能 1. 

90.431- 433 

true negatives ( 真阴性 1 ,175-181 

true positives ( 真阳性 I , 176-181 

Tufte. Edward ( 爱德华 • 塔夫特 > . 129.420 

two variable comparisons ( 两种变最比较）， 291-292 


ultra-specified problems ( 超规范问题），237 
uncertainty ( 不确定因索 I . 25-27. 342 
unique!) ( R 指令 ).413 


Up Close ( 细节放大 > 

conditional probability notation ( 条件概率记法 ).176 
confounding ( 混杂 ），64 
correlation (相关 ）. 302 
histograms I 直方图 ）. 263 

your data needs ( 数据需要 .), 78 

your regular expression ( 正则表达式 1.406 

Y 

=VALUE0 ( Excel/OpenOffice 公式 1 ■ 398 
Variables ( 变量 I 

Decision ( 决策）， 79-80. 92, 233 
Dependent (应变 1 , 124, 423 
Independent (自变 1 .103. 124 
Linked ( 相关）， 103,146-148 
Multiple (多个 1.84. 123-126, 129. 291. 359 
Two ( 两个 1,291-292 
variation, internal ( 内部偏差 1.50 
vertical bar (|) 

in Bayes' rule ( 贝叶斯规则 I . 176 
in R commands ( R 命令 1.380 
Visual Basic for Applications (VBA), 407 
Visualizations (围形 > 

Beautiful Evidence (〈可 II 的证据 > ( 塔夫特著 ）I, 420 
causal diagrams ( 因果关系围） , 46, 48 
data art I 数据艺术 1.129 
examples of poor ( 不合格实例 83.114-115 
fast and frugal trees ( 快省树）， 239. 242, 244 
making the right comparisons ( 正确比较）. 120-123 
multi-panel lattice ( 多面板网格图 1 . 291 
multivariate ( 多变置丨. 123. 125-126, 129.291 
overview ( 概述 ），111 
in reports (报告 ）. 16. 72. 96 
software for ( 软件 1 . 129. 211 
I 同时参见•■直方田 _ 、"散点田” I 

W 

Watch it ! (小心 I 1 

always keep an eye on your model assumptions ( 千万 
对横型 假设保 持戒心 1.323 







蜂窄 面答一个熱 n 冏*: _作身6计么并奏托 
这安东进一#错歙*兮析姝本董？ • 
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淮适含阅锿本书？ 

请先回答几个 问埋： 

o 你觉得，数据中隐含了无穷的智慧，只要有合适的工 
具，就能利用这些智蕙，对吗？ 

0 你想学习、理解和记忆如何创建 靓面的 图形、试验假设 
条件、进行回归分析或整理混乱的数据，对吗？ 

0 你喜欢笑语®哗的晚赛甚于枯燥、无聊的学术演讲，对 
如果以上问题全部回答“对！ • 一这本书适合你. 


谁谈和本书说拜拜？ 


请先回答凡个问 


o 你是一个经验老道的数据分析师，正在调査数据分析 
领 域最前 沿的课《,对吗7 

Q 你从未用过 Microsoft Excel 或 OpenOffice calc, 对吗？ 

o 你惧怕尝试新亊物，宁可上山打虎也不愿标新立异，对 
吗？你认为要是用拟人的手法叙述控制组和目标函数， 
技术书籍就难免有失严肃，对吗 


只要有一个问題回答•对！ - 一你与本书无缘。 


[营销 典捎话 -. 0 •妻唷侑用卡 

就可 "1* 氺硪 . 】 



序宫 


我们了解你在想什么 


“这怎么能是一本严肃的数据分析图书呢？ 


••这 《图邯是用宋干嘛的？” 


■•我真能这柞学数据分析吗？" 


以駐觉得这很 



我们了解你的犬胎在想什么 


物，它天生如此，这正是你活力的 来源。 


你的大《 如何 知道哪件事*要？假想有一天你出门旅行. 迎面 扑来 
只吊睛额大虎，你的头脑和9•体会有什么反应？ 


神经元发动 …… 情绪激动化学物质激增 


于垃，你的大 W 知进—— 


这事绝对重鬌！记住！ 

但，想像你是呆在家 S., 或者是呆 ft 图书馆里.也钛是说，是在一个安 
全.溫暖.没冇老虎的地方 . 

你正 在复习 迎考，要不然就是在努力#明白一些 艰深的 技术，你的老板 
认为花个把虽期就能搞定.顶多 十天， 

唯-的问 題是： 你的大 IB 想好 好帮你 一把.它试图保证不让 
这种“明显不重要”的内容去破坏珍惜的资灌.这些珍稀的资源 
最好用来保存真正 •■重 大”的 亊情. 像老 虎啊. 像火灾险情 W. 

像你绝不该在大学生网站 Facebook 的网 B 上貼 _h 那些聚会照片啊》 

没有什么便当的办法可以告诉大 B • 喂，大 《. 我对你感激之至， 

可惜啊，不管这本书多无聛，也不管我的情感地动仪如何纹丝不 


动，我真的希望你把这些 材料都 记住。 


你的大》渴®新亊物 . 大》总是不停地搜索.探夜.等待不同寻常的亊 


那么，大脑怎么对待你所 碰到的 常规.酱通.一般的事情呢？—— 
它会踢尽全力阻止这些寧情，以免干扰 f 』 d 真正的工作一 id 录重驀唞 
项， 大 W 不会费力保存这啤琐4^这些琐事从来不会成功地闯过■•明 
不*© 事项”的 关卡， 
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如何使用本劣 


我们认为 泫系列 ©书的读者都是学习者。 


既然要学习.怎样才能学 会呢？ 首先.你得搞懂.然后，切勿 遗忘：一字 一句硬塞不是 
办法。根据最新的认知科学.神经生物学及教宵心理学研究结果.学习远不仅仅是读书认 
字。知道怎么让你的脑筋动起来。 


下面是部分深入浅出 I Head First) 教学 單則: 


将知识 ffl 形化.图形比单调的文字好记得多，可以提*学习效率（记忆学习 
和转移学习的学习效率最多能提离89% ) ;图形还 * 让知识更容易理解，相 

比将文字放在页脚和下一页，将文字放在相关 B 形当中或 ffi 形周 ■, 学习者 

成功解决相关问題的可能性将成倍增长。 



采用对话式的个性化风格.最近的研究表明，要是回*一本正经的语气，代之以对话般的风 
格，以第一人称平易近人地给学生上课，学生的课后测验成绩最多可提高40%。多讲几个故 
寧，少来一点离谈闺论，语气宜随和。别太郑■其亊。想想看，一局笑语曛哗的晚宴和一场 
演讲， 哪一样 更让你惦记？ 


引导读者深入 思考： 换句话说，除非读者主动调动自己的神经元，否则脑 
袋里不会发生什么大变化。只有激发读者的兴趣，引起读者的好奇，剌澈 
读者的灵感，读者才能解决问 H, 得出结论，获得新知识。为此，讲授者 
要设计各种难题、练习，提出引人深思的提问，还要多让读者做 一些让 
左右脑半球和多种感官都动起来的活动。 


c\ 


牢牢吸引读謇的注意力.大家都有这样的体验——■■我是真想学，但* 
完第一页就晕了_。大脑注意的是不同寻常的、有趣的、奇怪的、引人注意的、 
出人意料的寧情。 学习一种新® 艰深的技术不一定非得枯燥不可，如果它不是 
这样乏味，大脑会学得更快。 


影喃读者的情*.现已知道，人的记忆能力在很大程度上取决于要记忆的 
内容对情感的影响。我们关心什么，就会记住 什么： 我们对什么亊有感 
觉，就会记住什么。这里讲的情感并非天灾人祸给人带来的撕心裂肺的 
伤痛情感，而是惊讶、好奇、感觉有趣、想追根究底之类的情感，以及 
在猜对一个字谜、在学会别人®觉难以学会的亊情或是在意识到自己慵 
的东西居然比工程部那位开口闭口 ■我比你有技术_的张三还多时，油 
然而生的"我是老大 • 的*觉。 



深 




无认知： 对 思、 考的思、考 


如果真想学东西，而且想学得更快更深入，就要关注自己如何集中注意 
力。要思考自己的思考方式I研究自己的研究方式 • 

大多数人在成长过程中都不曾学习元认知和学习理论方面的知识•人们 
期望我们学知识，但极少有人教我们如 何学。 

但想象得到，捧着本书的你.的确想学习数据分析知识 • 同时可能不 
想花费太多时间，要想利用在本书中读到的知识，就得记住读过的知识，为 
此必须理解这些 知识。 为了 淋滴尽 致地发挥本书或任何书本或学习经验的作 
用，请管好你的大脑.请苷好大脑对待本书的态度 • 

決窍在于让大 W 把正在学习的新资料当做-正经大亊-——对幸福至 
关重要的大事，》老虎-样*要的大事.若非如此.你《会陷入一场持久 
战： 你竭力要记住新知识，大》却竭力要把这些新知识明出去* 

既然如此，如何让大騸像对待吃人的老虎一样对待数据分析知识呢？ 

有两种办法，一种缓慢而乏味.一种迅速而有效*慢办法是简单记 
fc. 你显然明白，只要不停地把同样的东西往大 B 里灌，即使是 最乏味 的知识.也 



能学会， 记牢， 只要《复灌的次数足够多，大 IB 就 会想： ■这些东西给他的感觉并不 
«要，伹他不停地看这些相同的东西. 一遍. 一 遍.再 一遍. 因此我猜这些东西肯定 
很®要《 ” 


快办法是做一切增进大《活动的事，尤其是不同类型的大 18 活动 • 上一页讲了很 
多这样的活动，事实证明，这些活动全邯能促使 大脑以 有利于己的方式工作 • 例如， 
研究表明，将文字放在文字所描述的图片当中（相反的做法是将文字放在 M 面中的其 
他位 H, 如注释位置或正文位 置）， 会促使大 B 努力搞淸楚文字和图片之间的关系， 
进而发动 SE 多神经元.更多神经元发动=更有机会让大 B 明白某件亊值得注意 ，可能 
还值得记住， 

对话式的写作风格对此很有帮助.人们在与人对话时注意力会更集中，原因是别人 
期待他们有所表现 • 令人惊讶的是.大脑不一定会在意■对话 • 是在人和书之间进行！ 
反之，要是写作风格了无新意，乏味枯燥，大 B 的感觉就和在挤满消极听众的屋子里 
听演讲没什么 两样： 没必要保持 清醒。 

不过，图形和对话式风格只是起步…… 
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如何使用本书 


我们的傲法 

我们使用丰富的 ffl 片，这是因为，大脑追逐图像，而非文字》在大 B 的活动中.一张 
图片胜过千言万语。当同时使用田片和文字进行说明时，我们将文字填写在图片当中，当 
文字出现在它所描述的事物当中时，大 B 的工作更有效丰，相反，若将说明性文字放在注 
释或其他正文当中，則无此效果. 

我们使用反复论述法，即以不同的方式.通过不同的《介对同一主题进行反复描述， 
给读者营造丰*的感受，目的是让这些主题有更多机会印 在大脑 的多个区域. 


我们以出人意料的方式叙述 W 念和使用图片，因为，大脑追逐新鲜 亊物， 我们在图片 
和创意中或多或少加入了 一些情 感性的内容.因为，大 B 关注情*的生物化学反应.让人 
有所感触的东西•能让人记住，即使这点感触不过是一丝_默.-丝惊讶或-丝兴趣. 

我们使用个性化的对话式写作风格.因为，当大 B 认为你是在进行对话而不是在消极 
地听报告时，躭会调整到注意力更集中的状态。即使在读书时， 大脑也 是这个习愤。 

我们安排了80多个活动，因为，相比*书，在做亊时，大 B 经过调整，能学会和记住 
更多东西。我们安排的练习有难度.但不会让人束手无策，这正是大多数人愿意做的练习。 


我们使用多种教学风格.因为，有的人可能喜欢一步一步按顢序来，有的人可能軎欢 
先肴情大围.还有一些人可能只想看看例子.我们将以多种方式反复讲述相同的主 B, 不 
管读者的个人爱好如何，他们_因此受益匪浅. 


我们安排了 It 左右脑半球分别负贵的内容，因为，大脑开动部位《多，就学得 越多， 
记得越多，注意力«持久.由干 一侧大 齙工作往往意味着另一侧大脑得到休总，左右半脑 
的分工合作使得长时间学习的学习效串得到提髙. 


我们还安排了一些场最和练习，在场最 中展现 不同的观点.因为，当大脑被迫进行评 
估和判断时，会调螫到深入学习状态， 

我们在练习中安排了一些»点，即提出一些无法两单回答的问麵.因为，你的大 B 在 
不得不处理某件事情时，会谰整到学习和记忆状态.开动脑筋吧，••光看別人做运动无法 
让自己体态健美”。別祖心，我们尽力保证，你努力学习的都是该学的，你不会为了对付 
一个费解的例子或为了分析一段用词过于晦涩或行文过于简练的段落而多用一个篇细胞。 

我们以人物为例，把人物安排在场最.实例.图片等内容中.至于原因嘛，因为你是 
人群中的一员啊，你的大脑对人比对事更 关注。 


VI 深入浅出分析 
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你的 任务： 征服大脍 

我们的工作男此为止，剰下的就看你的了 • 从下面这 
些提示出发， W 从大 B 的判断，看看哪些对你有用，哪些 
对你没用，尝试一下新事物吧。 

$^<6苜下泉•贴在 


O 慢慢读。理解的内容越多.要记忆的内容越少。 

忌死读。停一停，想一想.碰到书中的提问时.别直 
接翻看 答案， 想象真的有人在问你这个问强迫自 
己的大脑想得越深，学会.记住的《串躭越大 • 

O 自己做练习.自己记笔记. 

我们安排了练习和笔记，但是，要是我们替你完成 • 
就 »u： 别 人锌你 锻炼身体一样I只动眼不动手也不 
可取.要动动笔。大量证据证明，学习时的身体动 
作能提 高学习 效串. 

0阅读 ••世 上没有傻问 as" 部分 

世上没有《问题 • 这些问题并非可看可不看•这是 

核心内容的组成部分I 请勿 忽略。 

Q 谓将下面这段话作为最后一段床头阅读文字•或起 
码作为最后一段离深的床头阅读 文字。 

有一部分学习过程（尤其是短暫记忆转变为长期记 
忆的 过程） 发生在放下书本之后.大1»需要有自己 
的时间进行更多 处理。 如果在这段处理时间内学新 
东西，将会芸失-•些刚学会的东西 • 

o 开口大声讨论。 

说话会刺激大齣的其他部分 • 如果你正在努力理解 
一些知识，或者正在努力增加以后记住这些知识的 
概韦，请大声说出这些知识.还有一种更好的做法， 
试着向别人大声解释这些知识，你会学得更快，可 
能还会发现一些阅读时不曾发现的 名堂。 


0大置喝水. 

充沛的体液会让大脑处于最佳工作状态.脱水（早 
在感到口*前就会 发生） 則会让认知功能下降 • 

o 聆听大脑的声音。 

■倉你的大 b 是否 a 负荷 e 作.若你发现自己开始 
心不在*,或者剐刚读过的东西转眼忘记.躭该休 
.&• 一且过了某个学 习点. 明怕拼命*,也无法提 
高学习效串，反而有可能彩晌学习。 

0找到感觉. 

。 要 il I’ IlJ •融入各种场 
K, 为照片设想旁注，躭连抱怨一个并不好笑的玩 
笑，也比什么感觉都没有强。 

o 勘加练习 I 

学会数据分析的唯-•办法躭是勘加练习，这正是本 
书的 要求， 数据分析是一门技术，楕干此进的唯一 
办法就是大量实践.本朽将给你带来大鼉实践机 
会： 毎一章中都有一个等待你解决的问埋，千万別 
眺过这些问題不看——大量学习都发生在解决问哩 
的过 程中。 我们 为毎一 个问題提供了 答案， 要是卡 
了壳（有些细級之处很容易给人带来麻烦）.別不 
敢看！不过，请尽置先解决问題洱看答案，务必让 
你的办法行之有效，然后才继续看书中的下一部分 
内容. 






本书是经验之谈，并非参考书籍，我们故意抽掉了会妨碍讲述书中相关知识的东 
西。本书对你已经见识过和学习过的知识作了一些假设，因此第一次通读本书的时候， 
需要从头读起。 


本书并非软件工具揃导书. 


许多以“数据 分析- 为题的图书都是顺着 Excel® 数表把认为和数据分析有关的郎分 
一路讲下去，然后针对毎个函数给几个实例.但《深人浅出数据分析》讲的是如何成为 
数据分析师.尽管你在本书中会学到相当多的软件工具，但它们不过是手段而已，0的 
是学习如何进行出色的数据 分析， 


我们希 a 你懂得如何使用®本的电子表格公式. 


用过电子表格的 SUM 求和公式吗？要是没用过，你可能先要突击一下才能开始学习 
本书.尽管许多章节根本不要求使用电子表格，但其他有此要求的章节却假定你会使用 
各种 公式。 要是熟悉 SUM 工具，那么你基础不错. 


本书超越统计学. 


本书*满统计知识，作为数据分析师.你应该尽董多拿握一些统计知识，读完《深 
人浅出数据分析》之后， 最 好再读一读 （:深 入浅出统计学 》、 Head First SUlisticsl . 不 
过，数据分析不仅涵盖统计学，还牵涉许多其他领域，本书中选用的非统计《材主要用 
于讲解来*于现实生活的具体.实用的数据分析经验. 

活动并非可做可不做> 

练习和活动不是点而是本书的核心组成 部分， 这些练习和活动有的是为了帮助 
记忆，有的是为了帮助加深理解，还有的是为了帮助应用所学知识，切勿忽略。唯一的 



例外是填字游戏，这不是非做不可，不过，填字游戏会让大 B 得到在不一样的语埭下 
思考所学到的单词和术语的大好机会， 


反复论述是刻意而靈要的安播. 


深入浅出系列图书有一 个明显特色： 我们希望你真正掌握学到的知识，我们希望 
你在看完本书的同时躭记住学到的知识.大多数参考书都不把记忆和回忆当做一个自 
标，但本书的目标是 学会， 所以，常常会看到同一 《 念多次出现. 


本书意犹未尽. 


我们乐干看到你在书轉合作网站上找到更多实用而有*的资料，下列网站可为你 
提供这些 资料： 


httpyAoww.headfirsllabs.com/books/hfda/. 


“动动脑" * 习没有答案. 

有一些“动动®-练习没有标准 答*, 另有一些炼习可以参考“动动 B - 活动的 
学习经验部分判断自己的答粜是否正磽 • 以及在什么情况 T 会正磺，部分••动动《- 
练习给出了提示，为你指明正确方向. 



妓术颜问组 


•tonf "Rose 



技术願问: 


Eric Heilman . 美 Bl 乔治教大学沃尔什外交学院优秀毕业生，国际经济学学位，在奸伦比亚特区读大学期间， 
曾在美国国务院和白 官国家 经济委员会工作.他在芝加釺大学完成经济学毕业论文，目铕在位于美国马里兰州贝塞 
斯达 (Bethesda) 的乔治敦大学預备学校任统计分析和数学教师. 

BillMietelski . 软件工程师. <度担任深入浅出 [HeadFirst、 技术頋问，他急不可待地想给自己的尔夫技 
术做个数据分析，好在球场上一领风骚 • 

Anthony Rose , 在数据分析领域从业近十年，目前任 Support Analytics 公司总哉.数据分析及图表顾 
问„ Anthony 拥有财务与管理专业工商管理硕士 学位， 他对数据分析的热爱由此开始，工作之余，他常常出现在马 
里兰州哥伦比亚击的髙尔夫球场上，陶醉在好书中，品味着美味的葡萄酒，或者和年幼的女儿们及迷人的妻子 -- 起 
消磨时光。 


X 深入 浅出数 据分析 



致谢 


我的 编辑： 

Brian Sawyer. —位不可思议的编辑，和 Brian —起工作就像和舞蹈 
家共舞，各种各样重要的I作纷至沓来，虽令人不十分理解，看上去却很 
不错，让人干得兴高采烈。我们的合作振奋人心，他的支持.反请和创意 
是无价之宝， 


O’ReNly 团队： 

Brett McLaughlin —开始就看到了这个项目的前途.引领项目走 
过艰难岁月，始终如一地支抟项自 • Brett 孜孜不倦地强调偉对深人浅出 
(Head Fiist) 书籍的体验，让人备受 tt 舞。 他运筹 幞幄. 



Karen Shaner 提供后勘支持，在剑桥寒冷的淸覊给我们带来很多快 
乐， Brittany Smithy 献了一些非常棒的图形元素，供我们反复 使用， 

纶我启示的睿瞽者： 

本书有大量出色的创意.许多创意在以“数据 分析- 为 B 的朽籍 
屮皤不 常见，但这些创意很少是我个人的独创.我从 Dietrich Doerner. 
Gerd Gigerenzer, Richards Heuer. Edward Tuftc 等超级货星的的作品中汲 
取了大 It 经验.把他们的作品统统读一遍吧！ ••反査- (anti-resume) 这个 


IS 〉 
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创意出自 NassimTaleb 的《黑 天鹅》 （真希 S 他出第二部，带来《多创 意）， 
Richards Heuer 好心地给我回信 WVfe 本书，还给我出了很多有用的主意. 

朋友与 同事： 

感谢 Lou Barr 为本书提供知识产权，职业道德. S 辑学及美学支 
持， VwenWu 给我讲解关系 模型， Aron Hdidin 在我大学求学期间曾贽助 
我学习 -- 门超棒的情报 分析* ，我的牌友 Paul. Brewster. Matt. Jon 和 
Jason 给我上了关干均衡使用启发法和最优化决策法的昂贵一 

离开这隹人我没 法活： 

技术顧问组I:作出色.他们揪出成堆的错误，提出大量 滄议， 给予 
我巨大支持.在本书撰笱过程中.我对一位心思缜密的统计师——我的 

朋友 Blair Christian 依赖甚深，书中毎一页都能看到他的影子.谢谢你 

为我做的一切， Blair. 

我的京人 Michael Sr.. Elizabeth. Sara. Gary 和 Marie 给了我巨 

大的支持，尤其要*谢我的妻子 Julia 的坚定支持， te 是我的一切。谢谢 
我的全家！ 









